Извлечение словосочетаний из индекса Lucene

У меня есть индекс документов, хранящихся в Lucene. Мне нужно извлечь все словосочетания с их частотой из индекса. Я знаю, что существуют различные алгоритмы для обнаружения словосочетаний внутри данного документа, но я не знаю ни одной существующей библиотеки, которая могла бы работать с Lucene специально для этой задачи. Кто-нибудь знает какую-нибудь библиотеку?

Я знаю, как извлечь только биграммы из индекса lucene, но, конечно, не все биграммы являются словосочетаниями.

solr lucene text-analysis

London guy 05.02.2014 источник

Ответы (1)

arrow_upward
0
arrow_downward

Как насчет использования Shingles, который будет генерировать все n-граммы. Затем использовать фасеты, чтобы вернуть эти энграммы с подсчетами? Или анализ терминов из админки.

Alexandre Rafalovitch 07.02.2014

Извлечение словосочетаний из индекса Lucene

Ответы (1)

Похожие вопросы