Можно ли настроить Tesseract только на OCR (без изменения изображения) при создании PDF?

Есть ли способ заставить Tesseract выполнять только распознавание текста и оставить исходные изображения нетронутыми? На данный момент я использую команду:

tesseract -l eng file.tif file pdf

для создания file.pdf из многостраничного файла tif. Моя проблема с этой командой заключается в том, что Tesseract изменяет изображения. Например, удаляются тонкие линии, обозначающие таблицы или некоторые рисунки. Я хотел бы остановить это поведение и распознавать только документ, в котором текст находится под исходным изображением. Если это имеет значение,

$ tesseract -v
tesseract 3.03
 leptonica-1.71
  libgif 4.1.6(?) : libjpeg 6b : libpng 1.6.16 : libtiff 4.0.3 : zlib 1.2.8 : libopenjp2 2.1.0

$ cat /usr/share/tessdata/configs/pdf
tessedit_create_pdf 1
tessedit_pageseg_mode 1

pdf-generation ocr tesseract

wyer33 15.06.2015 источник

Ответы (1)

arrow_upward
1
arrow_downward

При использовании текущего git-репозитория Tesseract полученные изображения выглядят намного лучше. Конкретно:

$ ./tesseract -v
tesseract 3.04.00
 leptonica-1.71
  libgif 4.1.6(?) : libjpeg 6b : libpng 1.6.16 : libtiff 4.0.3 : zlib 1.2.8 : libopenjp2 2.1.0

git log -n 1
commit 941d87057e67d18aca2ed428543e7f24bbdba010
Author: Ray Smith <[email protected]>
Date:   Wed May 13 17:46:58 2015 -0700

    Fixed training build

с участием

$ git branch
* master

По сути, все строки, которые были удалены в 3.03 из таблиц и рисунков, теперь остались. При этом изображение все еще обрабатывается, а разрешение ниже, чем исходное изображение. Тем не менее, для моих целей все выглядит нормально.

wyer33 20.06.2015

Можно ли настроить Tesseract только на OCR (без изменения изображения) при создании PDF?

Ответы (1)

Похожие вопросы