Как да използвам испанския Wordnet в NLTK?

Току-що изтеглих испански Wordnet от проекта GRIAL, форматът е XML. Как мога да го използвам в Python NLTK?

Освен това на същата страница можете да изтеглите етикетиран корпус на испански. Как мога да го включа и аз?


person nanounanue    schedule 02.09.2014    source източник
comment
защо просто не използвате вградената испанска функционалност на NLTK?   -  person James Tobin    schedule 10.09.2014
comment
@JamesTobin проблемът с вградения е, че е много дълбок и не е много прецизен. Имате ли идея как да се интегрирате?   -  person nanounanue    schedule 11.09.2014
comment
добре, моят испански е ограничен, така че опитът да навигирам в посочения от вас уебсайт беше труден за мен. но като се има предвид, че имате xml, сигурен съм, че можете да направите нещо с NLTKs Corpus reader. те могат да четат в XML файл, като използват nltk.googlecode.com/svn/trunk/doc/api/ вероятно   -  person James Tobin    schedule 15.09.2014
comment
Linkrot се зае с този въпрос   -  person Luke    schedule 04.01.2020


Отговори (1)


Използвайте XMLCorpusReader, за да заредите XML данни като корпус

Ето кода за това

from nltk.corpus.reader import XMLCorpusReader
reader = XMLCorpusReader(dir, file)

Напълно работещ пример, който използва XMLCorpusReader, е даден тук

person Rishi Dua    schedule 16.09.2014