Результат по-прежнему учитывает стоп-слова... Несколько строк моего txt:
Sensacional, ума дас melhores римейки де анимасао Саи сделать кино emocionado, absurdamente lindo, insensibilidade де quem reclama сделать мюзикл, lindo demais. (...)о фильм зависит от ностальгии да animação пункт funcionar. E apesar de ser eficaz, somente esse sentio não sustenta o longa sozinho para dizer que esta obra tenha qualidade e refinamento cinematográficos. um lado inova o seu contexto social, por outro lado a falta de originalidade compromete que a obra seja mais impactante.
Рединг текст
data <- read_tsv("bela.txt", locale = locale(encoding = "latin1"))
Создание корпуса
datacorpus <- VCorpus(VectorSource(data))
datacorpus <- tm_map(datacorpus, PlainTextDocument)
datacorpus <- tm_map(datacorpus, removePunctuation)
datacorpus <- tm_map(datacorpus, removeWords, stopwords('pt'))
BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2))
tdm <- TermDocumentMatrix(datacorpus,control=list(removePunctuation = TRUE,
stopwords = stopwords('pt'),
removeNumbers = TRUE,
tokenize = BigramTokenizer))
m <- as.matrix(tdm)
v <- sort(rowSums(m),decreasing=TRUE)
d <- data.frame(word = names(v),freq=v)
head(d, 10)
set.seed(1234)
wordcloud(words = d$word, freq = d$freq, min.freq = 1,
max.words=200, random.order=FALSE, rot.per=0.35,
colors=brewer.pal(8, "Dark2"))