разбор стоп-слов википедии html с помощью nltk

В связи с этим вопросом я работаю над программой для извлечения введения сущностей википедии. Как вы можете прочитать в приведенной выше ссылке, мне уже удалось запросить API, и теперь я сосредоточился на обработке XML, возвращенного вызовом API. Я использую nltk для обработки xml, где я использую

wikiwords = nltk.word_tokenize(introtext)
for wikiword in wikiwords:
    wikiword = lemmatizer.lemmatize(wikiword.lower())
    ...

Но в итоге я записал такие слова, как </, /p, <, ... . Поскольку я не использую структуру xml, я думаю, простое игнорирование всего xml сработает. Есть ли инструмент nltk или список стоп-слов. Я просто хотел бы знать, что является лучшей практикой?


person Milla Well    schedule 26.01.2013    source источник


Ответы (1)


Вы не указали, какой именно запрос вы используете, но кажется, что у вас сейчас есть HTML, а не XML, который вы извлекли из ответа XML.

И если вы хотите удалить все теги HTML из кода HTML и оставить только текст, вы должны использовать для этого библиотеку HTML, например Красивый соуп.

person svick    schedule 26.01.2013
comment
Здравствуйте, спасибо за ваш ответ, я пробовал две разные вещи. Сначала я попробовал этот ответ Дэвида Выонг, чтобы просто убрать знаки препинания. Это оставило такие слова, как li и ul в моем словаре. Сначала я думал, что работать с еще одной библиотекой будет излишеством, но теперь я попробовал BeautifulSoup, в котором есть симпатичная функция soup.get_text(). Это работает просто отлично. Спасибо еще раз - person Milla Well; 27.01.2013