Свързани въпроси 'tm'

R aggregate tocken от lemme в tm пакет
Имам зареждане и почистване на корпус в R с: myTxt <- Corpus(DirSource("."), readerControl = list(language="lat")) corp <- tm_map(myTxt, removeWords, c(stopwords("french"))) corp <- tm_map(corp, content_transformer(tolower)) corp <-...
234 изгледи
schedule 14.09.2022

findAssocs (tm) връща всички корелации като списък с единици
Имам корпус, създаден от 2 текстови документа и DocumentTermMatrix, от които искам да намеря корелации между думите. Какъвто и избор от думи да избера, функцията findAssocs връща корелации = 1 за всички думи в корпуса. Защо така? Ето извадки от...
293 изгледи
schedule 04.10.2022

Как да изравнявам списък със списъци?
Пакетът tm разширява c , така че, ако му бъде даден набор от PlainTextDocument s, той автоматично създава Corpus . За съжаление изглежда, че всеки PlainTextDocument трябва да бъде посочен отделно. напр. ако имах: foolist <- list(a,...
68871 изгледи
schedule 05.11.2022

Unicode символи при създаване на DocumentTermMatrix
Използвам пакета TM от CRAN в R. Имам проблеми със създаването на DocumentTermMatrix въз основа на Corpus. Проблемът е, че когато създам TermDocumentMatrix въз основа на UTF-8 корпус, тогава някои думи се превръщат в символи на unicode. corpus...
692 изгледи
schedule 10.02.2024

относно функцията data() в R
Когато използвате изтеглени R пакети, като "tm", даденият пример обикновено зарежда примерен набор от данни като data("crude") Как мога да знам какъв точно е този набор от данни и в какъв вид формат, матрица или вектор? Само като знам този...
14071 изгледи
r tm
schedule 11.04.2024

График на честотно разпределение на матрицата на термините на документа
Създадох матрица с термини на документ, която изглежда по следния начин: inspect(dtm[1:4,1:6]) allowed allowing almost alone companyunder companywide Doc1.txt 1 1 1 0 1 0 Doc2.txt...
864 изгледи
r tm
schedule 19.04.2024

извличане на текст с tm пакет в R, премахване на думи, започващи от [http] или всяка друга конкретна дума
Аз съм нов в R и копаене на текст. Бях направил облак от думи от емисия в Twitter, свързана с някакъв термин. Проблемът, с който се сблъсквам, е, че в wordcloud се показва http:... или htt... Как да се справя с този проблем Опитах да използвам...
6381 изгледи
schedule 01.06.2024

Защо стоп думите не са филтрирани в `tm` корпоративните матрици термин-документ?
Изграждам матрица термин-документ, използвайки библиотеката tm . # Create corpus. corporize <- function(dir_to_corporize) { crp <- Corpus(DirSource(dir_to_corporize, mode="text", encoding="ASCII"),...
63 изгледи
schedule 25.05.2024