Моя конечная цель — индексировать документы с помощью lucene. Поскольку Lucene не поддерживает индексирование других форматов. Я хочу преобразовать эти файлы в txt/html (индексируемые типы файлов Lucene). У меня есть набор документов почти 1000 файлов ppt, pdf, doc, xl и т. д. Пожалуйста, помогите мне
Как преобразовать файлы pdf, ppt, xl, doc в файлы txt/html с помощью любых доступных инструментов/кодов с открытым исходным кодом в php/python/perl?
comment
Я считаю, что это дубликат stackoverflow.com/questions/2582951/ . Пожалуйста, посмотрите мой ответ на этот вопрос.
- person Yuval F   schedule 14.04.2010
Ответы (1)
Вы можете использовать OpenOffice без заголовка для преобразования файлов из одного формата в другой, скажем, Excel/Doc в TXT/HTML.
Мы используем аналогичный процесс в сочетании с ImageMagick, чтобы позволить людям загружать офисные документы в приложение для презентаций.
Ниже приведены несколько примеров/учебников о том, как этого добиться:
Настройка OpenOffice
http://code.google.com/p/openmeetings/wiki/OpenOfficeConverter
Конвертер JOD (Java)
http://artofsolving.com/opensource/jodconverter
Конвертер PyOD (Python)
http://artofsolving.com/opensource/pyodconverter
Если вам нужна дополнительная помощь с OOo, не стесняйтесь спрашивать
Удачи :)
person
jhukdev
schedule
19.01.2012