Я новичок в NLTK и Python. Как мне добавить или загрузить наш собственный файл в корпус nltk? Например, как я могу загрузить свой собственный файл .TXT в корпус ieer? Является ли это возможным? Спасибо.
Как добавить или загрузить файл в корпус nltk?
Ответы (1)
Вероятно, вы пытаетесь прочитать свой собственный файл с помощью программы nltk. Если у вас есть каталог /home/me/corpusdir
с файлами в формате ieer, вы сможете открыть их с помощью
myreader = nltk.corpus.reader.ieer.IEERCorpusReader (r '/ home / me / corpusdir', '* .txt')
Затем вы можете вызвать те же методы, что и в реальном корпусе ieer. За подробностями обращайтесь к документации для CorpusReader
и модуля ieer
(который я никогда не использовал).
Если вы действительно хотите добавить свои файлы в существующий корпус, вам следует либо перетащить их в nltk_data
каталог, либо (более сложно, но лучше в конечном итоге) поместить символическую ссылку из каталога вашего корпуса на nltk. ieer, так что ваш читатель будет рассматривать исходные файлы ieer как подкаталог вашего корпуса.