Как добавить или загрузить файл в корпус nltk?

Я новичок в NLTK и Python. Как мне добавить или загрузить наш собственный файл в корпус nltk? Например, как я могу загрузить свой собственный файл .TXT в корпус ieer? Является ли это возможным? Спасибо.


person user1522348    schedule 13.07.2012    source источник


Ответы (1)


Вероятно, вы пытаетесь прочитать свой собственный файл с помощью программы nltk. Если у вас есть каталог /home/me/corpusdir с файлами в формате ieer, вы сможете открыть их с помощью

myreader = nltk.corpus.reader.ieer.IEERCorpusReader (r '/ home / me / corpusdir', '* .txt')

Затем вы можете вызвать те же методы, что и в реальном корпусе ieer. За подробностями обращайтесь к документации для CorpusReader и модуля ieer (который я никогда не использовал).

Если вы действительно хотите добавить свои файлы в существующий корпус, вам следует либо перетащить их в nltk_data каталог, либо (более сложно, но лучше в конечном итоге) поместить символическую ссылку из каталога вашего корпуса на nltk. ieer, так что ваш читатель будет рассматривать исходные файлы ieer как подкаталог вашего корпуса.

person alexis    schedule 13.07.2012