Можно ли настроить Tesseract только на OCR (без изменения изображения) при создании PDF?

Есть ли способ заставить Tesseract выполнять только распознавание текста и оставить исходные изображения нетронутыми? На данный момент я использую команду:

tesseract -l eng file.tif file pdf

для создания file.pdf из многостраничного файла tif. Моя проблема с этой командой заключается в том, что Tesseract изменяет изображения. Например, удаляются тонкие линии, обозначающие таблицы или некоторые рисунки. Я хотел бы остановить это поведение и распознавать только документ, в котором текст находится под исходным изображением. Если это имеет значение,

$ tesseract -v
tesseract 3.03
 leptonica-1.71
  libgif 4.1.6(?) : libjpeg 6b : libpng 1.6.16 : libtiff 4.0.3 : zlib 1.2.8 : libopenjp2 2.1.0

и

$ cat /usr/share/tessdata/configs/pdf
tessedit_create_pdf 1
tessedit_pageseg_mode 1

person wyer33    schedule 15.06.2015    source источник


Ответы (1)


При использовании текущего git-репозитория Tesseract полученные изображения выглядят намного лучше. Конкретно:

$ ./tesseract -v
tesseract 3.04.00
 leptonica-1.71
  libgif 4.1.6(?) : libjpeg 6b : libpng 1.6.16 : libtiff 4.0.3 : zlib 1.2.8 : libopenjp2 2.1.0

и

git log -n 1
commit 941d87057e67d18aca2ed428543e7f24bbdba010
Author: Ray Smith <[email protected]>
Date:   Wed May 13 17:46:58 2015 -0700

    Fixed training build

с участием

$ git branch
* master

По сути, все строки, которые были удалены в 3.03 из таблиц и рисунков, теперь остались. При этом изображение все еще обрабатывается, а разрешение ниже, чем исходное изображение. Тем не менее, для моих целей все выглядит нормально.

person wyer33    schedule 20.06.2015