Свързани въпроси 'tm'
R aggregate tocken от lemme в tm пакет
Имам зареждане и почистване на корпус в R с:
myTxt <- Corpus(DirSource("."), readerControl = list(language="lat"))
corp <- tm_map(myTxt, removeWords, c(stopwords("french")))
corp <- tm_map(corp, content_transformer(tolower))
corp <-...
234 изгледи
schedule
14.09.2022
findAssocs (tm) връща всички корелации като списък с единици
Имам корпус, създаден от 2 текстови документа и DocumentTermMatrix, от които искам да намеря корелации между думите. Какъвто и избор от думи да избера, функцията findAssocs връща корелации = 1 за всички думи в корпуса. Защо така?
Ето извадки от...
293 изгледи
schedule
04.10.2022
Как да изравнявам списък със списъци?
Пакетът tm разширява c , така че, ако му бъде даден набор от PlainTextDocument s, той автоматично създава Corpus . За съжаление изглежда, че всеки PlainTextDocument трябва да бъде посочен отделно.
напр. ако имах:
foolist <- list(a,...
68871 изгледи
schedule
05.11.2022
Unicode символи при създаване на DocumentTermMatrix
Използвам пакета TM от CRAN в R. Имам проблеми със създаването на DocumentTermMatrix въз основа на Corpus. Проблемът е, че когато създам TermDocumentMatrix въз основа на UTF-8 корпус, тогава някои думи се превръщат в символи на unicode.
corpus...
692 изгледи
schedule
10.02.2024
относно функцията data() в R
Когато използвате изтеглени R пакети, като "tm", даденият пример обикновено зарежда примерен набор от данни като
data("crude")
Как мога да знам какъв точно е този набор от данни и в какъв вид формат, матрица или вектор? Само като знам този...
14071 изгледи
schedule
11.04.2024
График на честотно разпределение на матрицата на термините на документа
Създадох матрица с термини на документ, която изглежда по следния начин:
inspect(dtm[1:4,1:6])
allowed allowing almost alone companyunder companywide
Doc1.txt 1 1 1 0 1 0
Doc2.txt...
864 изгледи
schedule
19.04.2024
извличане на текст с tm пакет в R, премахване на думи, започващи от [http] или всяка друга конкретна дума
Аз съм нов в R и копаене на текст. Бях направил облак от думи от емисия в Twitter, свързана с някакъв термин. Проблемът, с който се сблъсквам, е, че в wordcloud се показва http:... или htt... Как да се справя с този проблем Опитах да използвам...
6381 изгледи
schedule
01.06.2024
Защо стоп думите не са филтрирани в `tm` корпоративните матрици термин-документ?
Изграждам матрица термин-документ, използвайки библиотеката tm .
# Create corpus.
corporize <- function(dir_to_corporize)
{
crp <- Corpus(DirSource(dir_to_corporize, mode="text", encoding="ASCII"),...
63 изгледи
schedule
25.05.2024