У меня есть набор файлов с (потенциально) различными видами упорядоченных списков. Я хотел бы свернуть все экземпляры списка в текст абзаца и удалить #. т.е.
1. Hello
(a) world
ii) 3000
This isn't in the list.
Станет:
Hello world 3000.
This isn't in the list.
Я также могу представить случаи, когда было бы полезно извлечь такие списки в отдельный объект R (например, мы можем захотеть взять текст, создать список списков, в котором хранится каждый элемент списка). (т. е. если предположить, что одновременные элементы списка находятся в одном списке, предыдущие элементы станут 3 элементами в списке).
Некоторые рекомендации по этому поводу приведены в Python
здесь но я хотел бы знать, как манипулировать такими списками в R
.
Пока мои попытки довольно грубы, например. построение на случае неупорядоченного списка gsub("(\r?\n|\r)\\*", " ", stri1)
gsub("(?m)\n?^[a-zA-Z0-9]+\\.\\s+", "", text, perl=T)
, если вы читаете текст как одну строку. - person Wiktor Stribiżew   schedule 24.01.2016gsub("\\r(?m)\n?^[a-zA-Z0-9]+\\.|\\r(?m)\n?^[a-zA-Z0-9]+\\)|\\n(?m)\n?^[a-zA-Z0-9]+\\.|\\n(?m)\n?^[a-zA-Z0-9]+\\)", "", test, perl=T)
- person sjgknight   schedule 24.01.2016gsub("\\r(?m)\n?^[a-zA-Z0-9]+\\.+[a-zA-Z0-9]|\\r(?m)\n?^[a-zA-Z0-9]+\\.|\\r(?m)\n?^[a-zA-Z0-9]+\\)|\\n(?m)\n?^[a-zA-Z0-9]+\\.|\\n(?m)\n?^[a-zA-Z0-9]+\\)", "", test, perl=T)
- person sjgknight   schedule 24.01.2016gsub("\\r(?m)\n?^[a-zA-Z0-9]+\\.+[a-zA-Z0-9]|\\r(?m)\n?^[a-zA-Z0-9]+\\.|\\r(?m)\n?^[a-zA-Z0-9]+\\)|\\n(?m)\r?^[a-zA-Z0-9]+\\.|\\n(?m)\r?^[a-zA-Z0-9]+\\)|\\n(?m)\\r?^\\([a-zA-Z0-9]+\\)|\\r(?m)\\n?^\\([a-zA-Z0-9]+\\)", "", test, perl=T)
Читать их в списки тоже было бы весело (но это определенно выше моих сил прямо сейчас) - person sjgknight   schedule 24.01.2016