создать файл справки в формате txt из документа MS Word

Мне нужно создать текстовый файл из документа MS Word. Файл txt будет использоваться в качестве справочного документа для моего пользовательского интерфейса, поэтому он должен быть в специальном формате. Есть ли стороннее программное обеспечение, которое я могу использовать для чтения документа ms word и создания из него текстового файла в определенном формате? Или я могу использовать PERL для чтения документа Word таким образом, чтобы я мог извлекать заголовки, таблицы и заголовки разделов, как указано в слове doc. Мне нужно прочитать текстовый документ, и пока я его разбираю, мне нужно выяснить, как сказать, является ли строка, проанализированная из ms word doc, содержимым таблицы или заголовком раздела? Или есть другой способ сделать это?


person user3676724    schedule 26.05.2014    source источник
comment
Что это за особый формат? Опишите, что именно вы хотите сделать, вместо того, чтобы просто «текстовый файл»!   -  person Andrey Popov    schedule 26.05.2014


Ответы (1)


Я гораздо лучше знаком с синтаксическим анализом HTML, поэтому я бы посоветовал вам сначала перевести свои документы Word в HTML, используя MSWord::ToHTML или аналогичный модуль.

Затем вы можете использовать один из бесчисленного множества модулей синтаксического анализа HTML, например Mojo::DOM для синтаксического анализа ваши данные и их стиль. Есть 8-минутное видео о том, как использовать последний модуль Mojocast Episode 5.

person Miller    schedule 26.05.2014