извлечение текста и изображений из файла PDF

Я бился головой о стену с этим, исследовал и в значительной степени попробовал каждую предложенную мне библиотеку. В настоящее время я пытаюсь написать программу на java, которая будет извлекать текст и изображения из файла PDF и позволяет мне записывать извлеченный контент в файл слова. Мне удалось извлечь содержимое с помощью библиотеки ICEpdf, однако проблема в том, что мне нужно иметь возможность записывать содержимое в том же порядке, в котором оно было прочитано. Итак, чтобы уточнить, мне нужна библиотека, которая поможет мне отслеживать, где именно на странице расположены текст и изображения, чтобы я мог поместить их в одно и то же место в своем файле Word.


person iAmIronMan    schedule 15.01.2014    source источник
comment
Это обречено на то, чтобы никогда не работать должным образом по замыслу. Существует множество способов отображения изображений и текста в PDF-файлах. Вы можете заставить его работать с PDF-файлами, созданными из одного источника (достаточно для вас?), но никогда надежно с любым PDF-файлом.   -  person Durandal    schedule 15.01.2014


Ответы (2)


Конвертер PDF в Word — ужасно сложное предложение.

Лучше всего, вероятно, использовать Open Office, чтобы сделать это за вас, и даже не пытаться выполнять промежуточные шаги.

http://www.openoffice.org/api/

person Tim B    schedule 15.01.2014
comment
Как я могу использовать openOffice для этого? Поддерживает ли он прямое преобразование из PDF в MS Word? Спасибо за помощь. - person iAmIronMan; 15.01.2014

Посмотрите на это: Расширенный анализатор PDF для Java

ВЫКЛЮЧЕННЫЙ:

-Кроме того, насколько мне известно, есть синтаксический анализатор python, который как бы преобразует pdf в html (таким образом вы можете отслеживать порядок объектов в pdf). Я знаю, что это не java, но вы можете использовать вывод. http://www.unixuser.org/~euske/python/pdfminer/index.html

person Don Kartacs    schedule 15.01.2014