Анализатор иврита Lucene

Кто-нибудь знает, существует ли он?

Я гуглил это уже несколько месяцев ...

Спасибо


person Roey    schedule 30.06.2009    source источник
comment
Пора сообществу открытого исходного кода сделать его. Мне кажется, что настоящий стемминг очень сложен до такой степени, что требует огромного количества рабочей силы, но что некоторые базовые стемминги возможны, и, возможно, минимальный стеммер лучше, чем нулевой стемминг. Я, наверное, начну работать над этим самостоятельно. Если кому интересно, напишите мне.   -  person Asaf Bartov    schedule 27.01.2010
comment
... И в качестве первого шага я попробую использовать перечисление hspell (3). По сути, это готовый стеммер!   -  person Asaf Bartov    schedule 27.01.2010


Ответы (2)


Обновление
HebMorph

Из любопытства, вызванного вашим вопросом, я связался с Итамаром Син-Хершко, который был активен в списках рассылки Lucene около года назад, когда он работал над анализатором иврита для Lucene. Я спросил его, закончил ли он свой анализатор. Вот некоторые важные моменты из его ответа:

Короче говоря, нет, я этого не делал. Для Lucene не существует достойного бесплатного / открытого анализатора иврита, что я могу сказать точно. Я не уверен, каков ваш опыт в этой теме, но поверьте мне, когда я говорю, что нет простого способа сделать это; возможно, Lucene не создан для поиска на иврите, но я согласен, что решение должно быть найдено. Конечно, самый безопасный способ индексирования и поиска текстов на иврите - использовать специализированный стеммер, а интеграция с Lucene - не самый простой способ даже после того, как вы это сделаете. На рынке есть несколько очень хороших решений для поиска на иврите, и только одно, о котором я знаю, использует Lucene в своем ядре; Я недавно пытался с ними связаться, ответа пока нет ...

Упомянутый коммерческий продукт, основанный на Lucene, называется ATTIVIO и веб-сайтом ATTIVIO утверждает, что поддерживает иврит. В SIGTRS (группа интересов по поиску текста на иврите) были некоторые обсуждение ATTIVIO, в котором утверждается, что он основан на Lucene.

Таким образом, очевидно, что можно создать достойный анализатор иврита для Lucene, но в настоящее время нет доступного бесплатного анализатора.

person Naaff    schedule 30.06.2009
comment
Без проблем; рад, что это было полезно. ;) - person Naaff; 01.07.2009
comment
Привет, у меня наконец-то появилось время, чтобы начать работать над одним, и пока он выглядит многообещающим. См. code972.com/blog/hebmorph. Итамар. - person synhershko; 08.06.2010

В dtsearch есть плагин для сокращения корней иврита, который называется "pensim". Похоже, он был разработан wizcomtech.com.

person mosheb    schedule 21.06.2010