У меня есть корпус, созданный из двух текстовых документов и DocumentTermMatrix, в котором я хочу найти корреляции между словами. Какой бы выбор слов я ни выбрал, функция findAssocs
возвращает корреляции = 1 для всех слов в корпусе. Это почему?
Вот выдержки из моего кода:
library(tm)
library(SnowballC)
doc <- Corpus(DirSource("C:/Users/biat/Documents/customersatis"))
toSpace <- content_transformer(function(x,pattern) {return (gsub(pattern, " ", x))})
doc <- tm_map(doc, toSpace, "-")
doc <- tm_map(doc, toSpace, ":")
doc <- tm_map(doc, removePunctuation)
doc <- tm_map(doc,content_transformer(tolower))
doc <- tm_map(doc,removeNumbers)
doc <- tm_map(doc,removeWords,stopwords("swedish"))
doc <- tm_map(doc,stripWhitespace)
doc <- tm_map(doc, PlainTextDocument)
doc <- tm_map(doc, stemDocument, "swedish")
dtm <- DocumentTermMatrix(doc)
findAssocs(dtm,"active",0.1)
Когда я запускаю это, результаты подразумевают, что термин «активный» коррелирует со всеми 560 другими словами на 1 следующим образом, что на самом деле не так.
$active
admin actions all analysis arrends
1 1 1 1 1 .........
...................................................
............................ website workshops
1 1