Я пытаюсь обработать текстовый файл. В целом у меня есть корпус, который я хотел бы проанализировать. Чтобы использовать пакет tm (пакет анализа текста в R) для создания объекта Корпуса, мне нужно сделать этот абзац одним гигантским вектором, чтобы его можно было правильно прочитать.
у меня есть абзац
Commercial exploitation over the past two hundred years drove
the great Mysticete whales to near extinction. Variation in
the sizes of populations prior to exploitation, minimal
population size during exploitation and current population
sizes permit analyses of the effects of differing levels of
exploitation on species with different biogeographical
distributions and life-history characteristics.
Я использовал методы scan и readLine, и он обрабатывает текст следующим образом:
[28] "коммерческая эксплуатация за последние двести лет привела"
[29] "больших китов-усатых китов к почти полному исчезновению"
[30] "размеры популяций до начала эксплуатации минимальны"
Есть ли способ избавиться от разрывов строк? Или читать текстовый файл как один гигантский вектор?
Все опубликованные решения до сих пор были отличными, спасибо.
readChar
- person Rich Scriven   schedule 07.12.2014