Извлечение словосочетаний из индекса Lucene

У меня есть индекс документов, хранящихся в Lucene. Мне нужно извлечь все словосочетания с их частотой из индекса. Я знаю, что существуют различные алгоритмы для обнаружения словосочетаний внутри данного документа, но я не знаю ни одной существующей библиотеки, которая могла бы работать с Lucene специально для этой задачи. Кто-нибудь знает какую-нибудь библиотеку?

Я знаю, как извлечь только биграммы из индекса lucene, но, конечно, не все биграммы являются словосочетаниями.


person London guy    schedule 05.02.2014    source источник


Ответы (1)


Как насчет использования Shingles, который будет генерировать все n-граммы. Затем использовать фасеты, чтобы вернуть эти энграммы с подсчетами? Или анализ терминов из админки.

person Alexandre Rafalovitch    schedule 07.02.2014