извлечение текста и изображений из файла PDF

Я бился головой о стену с этим, исследовал и в значительной степени попробовал каждую предложенную мне библиотеку. В настоящее время я пытаюсь написать программу на java, которая будет извлекать текст и изображения из файла PDF и позволяет мне записывать извлеченный контент в файл слова. Мне удалось извлечь содержимое с помощью библиотеки ICEpdf, однако проблема в том, что мне нужно иметь возможность записывать содержимое в том же порядке, в котором оно было прочитано. Итак, чтобы уточнить, мне нужна библиотека, которая поможет мне отслеживать, где именно на странице расположены текст и изображения, чтобы я мог поместить их в одно и то же место в своем файле Word.

iAmIronMan 15.01.2014 источник

comment

Это обречено на то, чтобы никогда не работать должным образом по замыслу. Существует множество способов отображения изображений и текста в PDF-файлах. Вы можете заставить его работать с PDF-файлами, созданными из одного источника (достаточно для вас?), но никогда надежно с любым PDF-файлом. - Durandal 15.01.2014

Ответы (2)

arrow_upward
0
arrow_downward

Конвертер PDF в Word — ужасно сложное предложение.

Лучше всего, вероятно, использовать Open Office, чтобы сделать это за вас, и даже не пытаться выполнять промежуточные шаги.

http://www.openoffice.org/api/

Tim B 15.01.2014

comment

Как я могу использовать openOffice для этого? Поддерживает ли он прямое преобразование из PDF в MS Word? Спасибо за помощь. - iAmIronMan; 15.01.2014

arrow_upward
0
arrow_downward

Посмотрите на это: Расширенный анализатор PDF для Java

ВЫКЛЮЧЕННЫЙ:

-Кроме того, насколько мне известно, есть синтаксический анализатор python, который как бы преобразует pdf в html (таким образом вы можете отслеживать порядок объектов в pdf). Я знаю, что это не java, но вы можете использовать вывод. http://www.unixuser.org/~euske/python/pdfminer/index.html

Don Kartacs 15.01.2014

извлечение текста и изображений из файла PDF

Ответы (2)

Похожие вопросы