Что делать с POS, помеченным как «Конъюнкция» при лемматизации WordNet?

Упрощенные теги после расчёта тегов POS по NLTK.

simplified = [(word, simplify_wsj_tag(tag)) for word, tag in posTagged]
print(simplifiedTags)
#[('And', 'CONJ'), ('now', 'ADV'), ('for', 'ADP'), ('something', 'NOUN'), ('completely', 'ADV'), ('different', 'ADJ')]

Теперь нужно найти лемму для каждого слова. Каждый из них, кроме спряжения, может быть сопоставлен с классом POS в wordnet - существительным, прилагательным, наречием, глаголом. Что делать со словами, помеченными как Conjuction? Какой самый близкий родственник конъюнктуры среди всех четырех классов? Или они должны быть полностью исключены из приговора?


person holaditya123    schedule 19.08.2017    source источник
comment
В английском языке союзы и наречия разделяют свойство не изменяться. Это означает, что функция лемматизации всегда должна возвращать свои входные данные без изменений для членов этого класса POS. Поэтому я предлагаю вам использовать pos='r' при вызове WordNetLemmatizer.lemmatize.   -  person lenz    schedule 20.08.2017


Ответы (2)


Я думаю, что мы можем использовать значение по умолчанию для тега pos, которое является существительным для частей речи, отличных от ГЛАГОЛА, НАРЕЗАТЕЛЬНОГО, ПРИЛАГАЮЩЕГО, СУЩЕСТВЕННОГО.

https://bommaritollc.com/2014/06/30/advanced-approximate-sentence-matching-python/

Подход №6 вышеупомянутого веб-сайта делает то же самое.

person Yashika Jain    schedule 25.06.2018

Конъюнкции уже представлены в форме лемм, поэтому вы можете их пропустить.

person Gabriel M    schedule 27.06.2018