Имам Rails приложение, което приема качване на произволни бизнес документи от Word, Excel, Powerpoint и PDF. Трябва да направя всички тези документи достъпни за търсене, за предпочитане с помощта на Sphinx или PostgreSQL пълнотекстово търсене. Кои са най-добрите решения?
Как да поставя документи на Powerpoint и Excel в индекс за пълнотекстово търсене като Sphinx или PostgreSQL текстово търсене?
comment
Тук има свързан въпрос: stackoverflow .com/questions/1207995/
- person dtt101   schedule 23.09.2011
Отговори (1)
Както беше посочено в коментарите, това е покрито доста добре от по-стар въпрос.
Накратко: ще трябва да съхранявате съответните извлечени данни от тези файлове в базата данни за Sphinx, а вероятно и за PostgreSQL пълнотекстово търсене. Sphinx вече може да разбира и обикновени текстови файлове (стига колона от база данни да сочи към файл), но това все пак ще включва друг инструмент, извличащ данни от PDF, DOC, XLS и др.
person
pat
schedule
25.09.2011