Следует ли при использовании триграмм в tf-idf включать униграммы и биграммы?

Когда я использовал биграммы, я добавлял список биграмм к униграммам и использовал его в качестве своего корпуса. С триграммами я добавил триграммы к униграммам, но исключил биграммы.

Это правильный подход, или было бы лучше включить биграммы, если я хочу включить триграммы? Следует ли вместо этого использовать следующий процесс: униграммы -> униграммы + биграммы -> униграммы + биграммы + триграммы?


person JTa    schedule 17.09.2018    source источник
comment
Я не думаю, что есть универсальный ответ на этот вопрос. Это зависит от содержимого строк и от того, как именно вы разбиваете их на n-граммы.   -  person tripleee    schedule 31.10.2018


Ответы (1)


Узнав немного больше о функциях и tf-idf, я чувствую себя готовым ответить на этот вопрос.

Самая простая версия TF-IDF использует униграммы для создания словаря. Один из способов захвата многословных выражений - это добавление к словарю n-граммов более высокого порядка, таких как биграммы и триграммы. Биграммы и триграммы фиксируют выражения длиной в два и три слова соответственно и сравнивают их распространенность в документах.

Где вы получите наибольшую отдачу, когда дело доходит до n-граммов и многословных выражений? Кажется разумным начать с биграмм, поскольку выражений из двух слов больше, чем из трех. Такие выражения, как «коричневая лиса» и «высокая женщина», станут отличаться от «коричневого», «лисьего», «высокого» и «женского». Безусловно, триграммы и выше имеют большое значение (например, «быстрая коричневая лисица»), но это значение, вероятно, уменьшается с увеличением n, поскольку уменьшается вероятность захвата реальных выражений, а не шума.

Мой вопрос, однако, не в том, были ли триграммы полезны или нет, а в том, должны ли мы также использовать биграммы, когда мы решаем использовать униграммы и триграммы. Хотя нет правильного ответа, я не могу придумать случая, чтобы пропуск биграмм и переход сразу к триграммам имел смысл, а это означало бы, что вы проигнорировали бы все двухсловные выражения в своих данных. Вы не хотели бы упускать из виду сильную объяснительную силу биграмм, даже если вы хотите добавить n-граммы более высокого порядка.

person JTa    schedule 31.10.2018