Lucene анализатор на иврит

Някой знае ли дали съществува?

Търся това в гугъл от месеци...

Благодаря


person Roey    schedule 30.06.2009    source източник
comment
Време е общността с отворен код да направи такъв. Струва ми се, че истинското произтичане е много трудно, до такава степен, че изисква огромно количество работна ръка, но е възможно някакво основно произтичане и може би минимално произтичане е по-добро от нулево произтичане. Вероятно ще започна да работя върху това сам. Ако някой се интересува, моля да се свърже с мен.   -  person Asaf Bartov    schedule 27.01.2010
comment
...И като първа стъпка, ще се опитам да използвам изброяването на hspell(3). Ефективно е готов стемер!   -  person Asaf Bartov    schedule 27.01.2010


Отговори (2)


Актуализиране
HebMorph

От любопитство, предизвикано от вашия въпрос, се свързах с Итамар Син-Хершко, който беше активен в пощенските списъци на Lucene преди около година, когато работеше върху анализатор на иврит за Lucene. Попитах го дали е завършил своя анализатор. Ето някои уместни части от неговия отговор:

Накратко, не, не го направих. Няма приличен безплатен анализатор на иврит / с отворен код за Lucene, което мога да кажа със сигурност. Не съм сигурен какъв е вашият опит по темата, но повярвайте ми, когато казвам, че няма лесен начин да направите това; може също така Lucene да не е създаден за търсения на иврит, но съм съгласен, че трябва да се даде решение. Разбира се, най-безопасният начин за индексиране и търсене на текстове на иврит е да използвате специализиран стемер, а интегрирането с Lucene не е най-лесното дори след като сте направили това. Има няколко много добри решения за търсене на иврит на пазара, само едно, за което знам, използва Lucene в основата си; Наскоро се опитах да се свържа с тях, все още няма отговор...

Търговският продукт, базиран на Lucene, който се споменава, се нарича ATTIVIO и уебсайтът на ATTIVIO твърди, че има поддръжка на иврит. В SIGTRS (група по интереси за извличане на текст на иврит) имаше някои дискусия относно ATTIVIO, която твърди, че е базирана на Lucene.

Така че очевидно е възможно да се създаде приличен анализатор на иврит за Lucene, но в момента няма безплатен анализатор.

person Naaff    schedule 30.06.2009
comment
Няма проблем; радвам се, че беше полезно. ;) - person Naaff; 01.07.2009
comment
Здравейте, най-накрая намерих време да започна работа по един и засега изглежда обещаващо. Вижте: code972.com/blog/hebmorph. Итамар. - person synhershko; 08.06.2010

dtsearch има еврейски произхождащ плъгин, наречен "pensim". Изглежда, че е разработен от "wizcomtech.com".

person mosheb    schedule 21.06.2010