Есть ли способ заставить Tesseract выполнять только распознавание текста и оставить исходные изображения нетронутыми? На данный момент я использую команду:
tesseract -l eng file.tif file pdf
для создания file.pdf
из многостраничного файла tif. Моя проблема с этой командой заключается в том, что Tesseract изменяет изображения. Например, удаляются тонкие линии, обозначающие таблицы или некоторые рисунки. Я хотел бы остановить это поведение и распознавать только документ, в котором текст находится под исходным изображением. Если это имеет значение,
$ tesseract -v
tesseract 3.03
leptonica-1.71
libgif 4.1.6(?) : libjpeg 6b : libpng 1.6.16 : libtiff 4.0.3 : zlib 1.2.8 : libopenjp2 2.1.0
и
$ cat /usr/share/tessdata/configs/pdf
tessedit_create_pdf 1
tessedit_pageseg_mode 1