Как использовать испанский Wordnet в NLTK?

Я только что скачал испанский Wordnet из проекта GRIAL, формат XML. Как я могу использовать его в Python NLTK?

Кроме того, на этой же странице вы можете скачать тегированный корпус на испанском языке. Как я могу включить его?


person nanounanue    schedule 02.09.2014    source источник
comment
почему бы просто не использовать встроенную испанскую функциональность NLTK?   -  person James Tobin    schedule 10.09.2014
comment
@JamesTobin проблема со встроенным в том, что он очень глубокий и не очень точный. У вас есть идеи, как интегрировать?   -  person nanounanue    schedule 11.09.2014
comment
ну, мой испанский ограничен, поэтому мне было сложно ориентироваться на указанном вами веб-сайте. но, учитывая, что у вас есть xml, я уверен, что вы могли бы что-то сделать с читателем корпуса NLTK. они могут читать XML-файл, используя nltk.googlecode.com/svn/trunk/doc/api/ возможно   -  person James Tobin    schedule 15.09.2014
comment
Linkrot задался этим вопросом   -  person Luke    schedule 04.01.2020


Ответы (1)


Используйте XMLCorpusReader для загрузки XML-данных в виде корпуса

Вот код для этого

from nltk.corpus.reader import XMLCorpusReader
reader = XMLCorpusReader(dir, file)

Полностью рабочий пример, использующий XMLCorpusReader, приведен здесь

person Rishi Dua    schedule 16.09.2014