findAssocs (tm) връща всички корелации като списък с единици

Имам корпус, създаден от 2 текстови документа и DocumentTermMatrix, от които искам да намеря корелации между думите. Какъвто и избор от думи да избера, функцията findAssocs връща корелации = 1 за всички думи в корпуса. Защо така?

Ето извадки от моя код:

library(tm)
library(SnowballC)
doc <- Corpus(DirSource("C:/Users/biat/Documents/customersatis"))

toSpace <- content_transformer(function(x,pattern) {return (gsub(pattern, " ", x))})

doc <- tm_map(doc, toSpace, "-")
doc <- tm_map(doc, toSpace, ":")
doc <- tm_map(doc, removePunctuation)
doc <- tm_map(doc,content_transformer(tolower))
doc <- tm_map(doc,removeNumbers)
doc <- tm_map(doc,removeWords,stopwords("swedish"))
doc <- tm_map(doc,stripWhitespace)
doc <- tm_map(doc, PlainTextDocument)
doc <- tm_map(doc, stemDocument, "swedish")

dtm <- DocumentTermMatrix(doc)
findAssocs(dtm,"active",0.1)

Когато стартирам това, резултатите предполагат, че терминът "активен" е свързан с всички 560 други думи с 1, както следва, което в действителност не е така.

$active
  admin    actions    all   analysis arrends   
      1          1      1          1       1 .........    
   ...................................................        

............................ website  workshops  
                                   1          1                                                       

person Bilal    schedule 02.09.2016    source източник
comment
Добре дошли в StackOverflow! Моля, прочетете информацията за как да зададете добър въпрос и как да дадете възпроизводим пример. Това ще улесни другите да ви помогнат.   -  person Axeman    schedule 02.09.2016
comment
Имате два документа във вашия корпус. Всякакви две думи, които се намират в двата документа, ще имат корелация на единица. Предполагам, че вашите документи са много сходни, въпреки че без възпроизводим пример е невъзможно да разберете какво точно се случва.   -  person scoa    schedule 02.09.2016


Отговори (1)


Както е посочено от scoa, може да имате два документа, в които даден термин се среща и двата пъти: което води до единици.

Опитайте да свиете документа, преди да го превърнете в корпус:

text <- paste(unlist(text), collapse ="")
person BadLuckNick    schedule 01.05.2018