Опитвам се да обработя текстов файл. Като цяло имам корпус, който бих искал да анализирам. За да използвам пакета tm (пакет за копаене на текст в R), за да създам обект на Corpus, трябва да направя този абзац да се превърне в един гигантски вектор, за да се чете правилно.
Имам параграф
Commercial exploitation over the past two hundred years drove
the great Mysticete whales to near extinction. Variation in
the sizes of populations prior to exploitation, minimal
population size during exploitation and current population
sizes permit analyses of the effects of differing levels of
exploitation on species with different biogeographical
distributions and life-history characteristics.
Използвал съм методите scan и readLine и той обработва текста по следния начин:
[28] " търговската експлоатация през последните двеста години доведе "
[29] " големите китове мистицети до почти изчезване вариации в "
[30] " размерите на популациите преди експлоатацията са минимални "
Има ли начин да се отървете от прекъсванията на редовете? Или да прочетете текстовия файл като един гигантски вектор?
Всички публикувани решения са страхотни досега, благодаря ви.
readChar
- person Rich Scriven   schedule 07.12.2014