Конвертирайте сканирани pdf в .txt файлове с помощта на teseract

Трябва да конвертирам .pdf файл, съдържащ сканирани изображения, в .txt файла. tesseract ocr преобразува само изображения в .txt, но трябва първо да извлека .tif изображенията и след това да ги конвертирам. Може ли някой да ми помогне с това?


person Ganesh Nannaware    schedule 31.01.2014    source източник


Отговори (1)


Използвайте Imagemagick:

convert -density 600 input.pdf output.tif

Плътността е в DPI, от моя опит 600 DPI работи най-добре.

person Karol S    schedule 31.01.2014
comment
Може ли командата convert да се използва за създаване на множество изходни файлове? моля, помогнете ми с използването му. - person Ganesh Nannaware; 12.04.2014
comment
@GaneshNannaware Да, може. Поставете %04d в името на изходния файл и вижте как работи. - person Karol S; 12.04.2014