В связи с этим вопросом я работаю над программой для извлечения введения сущностей википедии. Как вы можете прочитать в приведенной выше ссылке, мне уже удалось запросить API, и теперь я сосредоточился на обработке XML, возвращенного вызовом API. Я использую nltk для обработки xml, где я использую
wikiwords = nltk.word_tokenize(introtext)
for wikiword in wikiwords:
wikiword = lemmatizer.lemmatize(wikiword.lower())
...
Но в итоге я записал такие слова, как </
, /p
, <
, ... . Поскольку я не использую структуру xml, я думаю, простое игнорирование всего xml сработает. Есть ли инструмент nltk или список стоп-слов. Я просто хотел бы знать, что является лучшей практикой?