У меня есть индекс документов, хранящихся в Lucene. Мне нужно извлечь все словосочетания с их частотой из индекса. Я знаю, что существуют различные алгоритмы для обнаружения словосочетаний внутри данного документа, но я не знаю ни одной существующей библиотеки, которая могла бы работать с Lucene специально для этой задачи. Кто-нибудь знает какую-нибудь библиотеку?
Я знаю, как извлечь только биграммы из индекса lucene, но, конечно, не все биграммы являются словосочетаниями.