Моя цель — выделить определенный раздел в наборе документов Word по ключевым словам. У меня возникают проблемы с анализом определенных разделов текста из большого набора данных текстовых файлов. Первоначально набор данных выглядел так: «заголовок 1» и «заголовок 2» обозначали начало и конец интересующего меня текста, а несущественные слова обозначали часть текстового файла, которая меня не интересует:
**Text** **Text File**
title one Text file 1
sentence one Text file 1
sentence two Text file 1
title two Text file 1
unimportant words Text file 1
title one Text file 2
sentence one Text file 2
Затем я использовал as.character, чтобы преобразовать данные в символы, и использовал unnest_tokens, чтобы привести данные в порядок.
df <- data.frame(lapply(df, as.character), stringsAsFactors=FALSE)
tidy_df <- df %>% unnest_tokens(word, Text, token = "words")
Теперь я хотел бы смотреть только на предложения в моем наборе данных и исключать неважные слова. Заголовок один и заголовок два одинаковы в каждом текстовом файле, но предложения между ними разные. Я пробовал этот код ниже, но он не работает.
filtered_resume <- lapply(tidy_resume, (tidy_resume %>% select(Name) %>% filter(title:two)))