Мне нужно создать текстовый файл из документа MS Word. Файл txt будет использоваться в качестве справочного документа для моего пользовательского интерфейса, поэтому он должен быть в специальном формате. Есть ли стороннее программное обеспечение, которое я могу использовать для чтения документа ms word и создания из него текстового файла в определенном формате? Или я могу использовать PERL для чтения документа Word таким образом, чтобы я мог извлекать заголовки, таблицы и заголовки разделов, как указано в слове doc. Мне нужно прочитать текстовый документ, и пока я его разбираю, мне нужно выяснить, как сказать, является ли строка, проанализированная из ms word doc, содержимым таблицы или заголовком раздела? Или есть другой способ сделать это?
создать файл справки в формате txt из документа MS Word
comment
Что это за особый формат? Опишите, что именно вы хотите сделать, вместо того, чтобы просто «текстовый файл»!
- person Andrey Popov   schedule 26.05.2014
Ответы (1)
Я гораздо лучше знаком с синтаксическим анализом HTML, поэтому я бы посоветовал вам сначала перевести свои документы Word в HTML, используя MSWord::ToHTML
или аналогичный модуль.
Затем вы можете использовать один из бесчисленного множества модулей синтаксического анализа HTML, например Mojo::DOM
для синтаксического анализа ваши данные и их стиль. Есть 8-минутное видео о том, как использовать последний модуль Mojocast Episode 5
.
person
Miller
schedule
26.05.2014