най-добрият начин за експортиране на данни от pdf файлове

Здравейте, работя във вестник и търсим начин да предоставим архивни материали. Нашите страници се предлагат в pdf формат, така че се нуждаем от начин за експортиране на текст и изображения от pdf, така че да могат да бъдат добавени към база данни. Разгледахме плъгина на News studio за Adobe Acrobat от Iceni Technology, но просто се чудя дали някой друг знае други опции за експортиране на pdf данни. Благодаря


person michael    schedule 08.03.2010    source източник


Отговори (2)


Има pdftotext (част от xpdf). Той ще извлече текст от PDF файлове (ако е съхранен като текст в PDF, а не като изображение). Вероятно бихте могли да използвате това.

Имайте предвид обаче, че всяко решение за извличане на текст от PDF ще бъде ограничено, тъй като PDF файловете всъщност са само за показване. Най-малкото няма да имате метаданни като дата на статия, автор и т.н.; освен това, ако част от текста е в изображение, може да го загубите.

По-добрият подход вероятно е да се извлекат необработените данни от системата, която генерира PDF файловете, и да се архивират в подходящ формат. Може би повече работа, но по-добри резултати.

person sleske    schedule 08.03.2010

Ако вашите pdf файлове вече съдържат текста, тогава работата ви ще бъде много по-лесна: инструменти като pdftotext и pdftohtml ще ви дадат изображение и текстов изход (вижте пакета xpdf-utils на Ubuntu).

От друга страна, ако текстът във вашия pdf е базиран на изображения, тогава ще трябва да разгледате опциите за OCR. За щастие има някои добри предложения с отворен код. Постигнах известен успех с помощта на комбинация от ImageMagick и Tesseract:

  1. Първо конвертирайте PDF файлове в TIFF с ImageMagick (Tesseract няма да OCR PDF файлове)
  2. OCR на TIFF с помощта на Tesseract (можете също да опитате gocr, също наличен в хранилищата на Ubuntu)

Ключът беше да се уверите, че TIFF файловете са с достатъчно високо качество. Тези настройки на ImageMagick работиха добре за мен:

convert -depth 8 -density 500 -colorspace GRAY -resize 1600 input.pdf output.tif

Ако трябва да извлечете метаданни и от pdf (заглавие, местоположение, тема, автор и т.н.), тогава pdftk е полезен инструмент.

person Jeffrey Knight    schedule 08.03.2010