Здравствуйте, у меня есть матрица терминов документа, и я преобразовал ее с помощью функции tidy()
, и она отлично работает. Я хочу построить облако слов на основе частоты слова. Итак, моя преобразованная таблица выглядит так:
> head(Wcloud.Data)
# A tibble: 6 x 3
document term count
<chr> <chr> <dbl>
1 1 accept 1
2 1 access 1
3 1 accomplish 1
4 1 account 4
5 1 accur 2
6 1 achiev 1
У меня 33 647 383 наблюдения, так что это очень большой кадр данных. Если я использую функцию max()
, я получаю очень большое число (64116), но ни одно слово в моем фрейме данных не имеет частоты 64116. Также, если я рисую фрейм данных блестящим с wordcloud()
, он отображает одни и те же слова несколько раз. Также, если я хочу отсортировать свой столбец count
, он не работает - sort(Wcloud.Data$count,decreasing = TRUE)
. Значит что-то не так, но я не знаю, что и как это решить. У кого-нибудь есть идеи?
Это сводка моей матрицы терминов документа, прежде чем преобразовать ее в фрейм данных:
> observations.tf
<<DocumentTermMatrix (documents: 76717, terms: 4234)>>
Non-/sparse entries: 33647383/291172395
Sparsity : 90%
Maximal term length: 15
Weighting : term frequency (tf)
Обновление: я добавляю изображение своего фрейма данных
Wcloud.Data
(возможно, используяdput
), чтобы мы могли воспроизвести проблему в вашем наборе данных? Я думаю, что у меня есть решение для вас, но нужно подтвердить на месте. Спасибо :) - person mysteRious   schedule 17.06.2018Wcloud.Data
для работы, было бы полезно. - person mysteRious   schedule 17.06.2018