Как да поставя документи на Powerpoint и Excel в индекс за пълнотекстово търсене като Sphinx или PostgreSQL текстово търсене?

Имам Rails приложение, което приема качване на произволни бизнес документи от Word, Excel, Powerpoint и PDF. Трябва да направя всички тези документи достъпни за търсене, за предпочитане с помощта на Sphinx или PostgreSQL пълнотекстово търсене. Кои са най-добрите решения?


person dan    schedule 23.09.2011    source източник
comment
Тук има свързан въпрос: stackoverflow .com/questions/1207995/   -  person dtt101    schedule 23.09.2011


Отговори (1)


Както беше посочено в коментарите, това е покрито доста добре от по-стар въпрос.

Накратко: ще трябва да съхранявате съответните извлечени данни от тези файлове в базата данни за Sphinx, а вероятно и за PostgreSQL пълнотекстово търсене. Sphinx вече може да разбира и обикновени текстови файлове (стига колона от база данни да сочи към файл), но това все пак ще включва друг инструмент, извличащ данни от PDF, DOC, XLS и др.

person pat    schedule 25.09.2011