Узнав немного больше о функциях и tf-idf, я чувствую себя готовым ответить на этот вопрос.
Самая простая версия TF-IDF использует униграммы для создания словаря. Один из способов захвата многословных выражений - это добавление к словарю n-граммов более высокого порядка, таких как биграммы и триграммы. Биграммы и триграммы фиксируют выражения длиной в два и три слова соответственно и сравнивают их распространенность в документах.
Где вы получите наибольшую отдачу, когда дело доходит до n-граммов и многословных выражений? Кажется разумным начать с биграмм, поскольку выражений из двух слов больше, чем из трех. Такие выражения, как «коричневая лиса» и «высокая женщина», станут отличаться от «коричневого», «лисьего», «высокого» и «женского». Безусловно, триграммы и выше имеют большое значение (например, «быстрая коричневая лисица»), но это значение, вероятно, уменьшается с увеличением n, поскольку уменьшается вероятность захвата реальных выражений, а не шума.
Мой вопрос, однако, не в том, были ли триграммы полезны или нет, а в том, должны ли мы также использовать биграммы, когда мы решаем использовать униграммы и триграммы. Хотя нет правильного ответа, я не могу придумать случая, чтобы пропуск биграмм и переход сразу к триграммам имел смысл, а это означало бы, что вы проигнорировали бы все двухсловные выражения в своих данных. Вы не хотели бы упускать из виду сильную объяснительную силу биграмм, даже если вы хотите добавить n-граммы более высокого порядка.
person
JTa
schedule
31.10.2018