Как преобразовать файлы pdf, ppt, xl, doc в файлы txt/html с помощью любых доступных инструментов/кодов с открытым исходным кодом в php/python/perl?

Моя конечная цель — индексировать документы с помощью lucene. Поскольку Lucene не поддерживает индексирование других форматов. Я хочу преобразовать эти файлы в txt/html (индексируемые типы файлов Lucene). У меня есть набор документов почти 1000 файлов ppt, pdf, doc, xl и т. д. Пожалуйста, помогите мне


person harsha    schedule 14.04.2010    source источник
comment
Я считаю, что это дубликат stackoverflow.com/questions/2582951/ . Пожалуйста, посмотрите мой ответ на этот вопрос.   -  person Yuval F    schedule 14.04.2010


Ответы (1)


Вы можете использовать OpenOffice без заголовка для преобразования файлов из одного формата в другой, скажем, Excel/Doc в TXT/HTML.

Мы используем аналогичный процесс в сочетании с ImageMagick, чтобы позволить людям загружать офисные документы в приложение для презентаций.

Ниже приведены несколько примеров/учебников о том, как этого добиться:

Настройка OpenOffice

http://code.google.com/p/openmeetings/wiki/OpenOfficeConverter

Конвертер JOD (Java)

http://artofsolving.com/opensource/jodconverter

Конвертер PyOD (Python)

http://artofsolving.com/opensource/pyodconverter

Если вам нужна дополнительная помощь с OOo, не стесняйтесь спрашивать

Удачи :)

person jhukdev    schedule 19.01.2012