Что делать с POS, помеченным как «Конъюнкция» при лемматизации WordNet?

Упрощенные теги после расчёта тегов POS по NLTK.

simplified = [(word, simplify_wsj_tag(tag)) for word, tag in posTagged]
print(simplifiedTags)
#[('And', 'CONJ'), ('now', 'ADV'), ('for', 'ADP'), ('something', 'NOUN'), ('completely', 'ADV'), ('different', 'ADJ')]

Теперь нужно найти лемму для каждого слова. Каждый из них, кроме спряжения, может быть сопоставлен с классом POS в wordnet - существительным, прилагательным, наречием, глаголом. Что делать со словами, помеченными как Conjuction? Какой самый близкий родственник конъюнктуры среди всех четырех классов? Или они должны быть полностью исключены из приговора?

holaditya123 19.08.2017 источник

comment

В английском языке союзы и наречия разделяют свойство не изменяться. Это означает, что функция лемматизации всегда должна возвращать свои входные данные без изменений для членов этого класса POS. Поэтому я предлагаю вам использовать pos='r' при вызове WordNetLemmatizer.lemmatize. - lenz 20.08.2017

Ответы (2)

arrow_upward
0
arrow_downward

Я думаю, что мы можем использовать значение по умолчанию для тега pos, которое является существительным для частей речи, отличных от ГЛАГОЛА, НАРЕЗАТЕЛЬНОГО, ПРИЛАГАЮЩЕГО, СУЩЕСТВЕННОГО.

https://bommaritollc.com/2014/06/30/advanced-approximate-sentence-matching-python/

Подход №6 вышеупомянутого веб-сайта делает то же самое.

Yashika Jain 25.06.2018

arrow_upward
0
arrow_downward

Конъюнкции уже представлены в форме лемм, поэтому вы можете их пропустить.

Gabriel M 27.06.2018

Что делать с POS, помеченным как «Конъюнкция» при лемматизации WordNet?

Ответы (2)

Похожие вопросы