Имам корпус, създаден от 2 текстови документа и DocumentTermMatrix, от които искам да намеря корелации между думите. Какъвто и избор от думи да избера, функцията findAssocs
връща корелации = 1 за всички думи в корпуса. Защо така?
Ето извадки от моя код:
library(tm)
library(SnowballC)
doc <- Corpus(DirSource("C:/Users/biat/Documents/customersatis"))
toSpace <- content_transformer(function(x,pattern) {return (gsub(pattern, " ", x))})
doc <- tm_map(doc, toSpace, "-")
doc <- tm_map(doc, toSpace, ":")
doc <- tm_map(doc, removePunctuation)
doc <- tm_map(doc,content_transformer(tolower))
doc <- tm_map(doc,removeNumbers)
doc <- tm_map(doc,removeWords,stopwords("swedish"))
doc <- tm_map(doc,stripWhitespace)
doc <- tm_map(doc, PlainTextDocument)
doc <- tm_map(doc, stemDocument, "swedish")
dtm <- DocumentTermMatrix(doc)
findAssocs(dtm,"active",0.1)
Когато стартирам това, резултатите предполагат, че терминът "активен" е свързан с всички 560 други думи с 1, както следва, което в действителност не е така.
$active
admin actions all analysis arrends
1 1 1 1 1 .........
...................................................
............................ website workshops
1 1