Преобразование отсканированных файлов PDF в файлы .txt с помощью tesseract

Мне нужно преобразовать файл .pdf, содержащий отсканированные изображения, в файлы .txt. tesseract ocr преобразует только изображения в .txt, но мне нужно сначала извлечь .tif изображений и затем преобразовать их. Кто-нибудь может мне с этим помочь?


person Ganesh Nannaware    schedule 31.01.2014    source источник


Ответы (1)


Используйте ImageMagick:

convert -density 600 input.pdf output.tif

Плотность указана в DPI, по моему опыту лучше всего работает 600 DPI.

person Karol S    schedule 31.01.2014
comment
Можно ли использовать команду convert для создания нескольких выходных файлов? пожалуйста, помогите мне с его использованием. - person Ganesh Nannaware; 12.04.2014
comment
@GaneshNannaware Да, может. Поместите %04d в имя выходного файла и посмотрите, как это работает. - person Karol S; 12.04.2014