Преобразование отсканированных файлов PDF в файлы .txt с помощью tesseract

Мне нужно преобразовать файл .pdf, содержащий отсканированные изображения, в файлы .txt. tesseract ocr преобразует только изображения в .txt, но мне нужно сначала извлечь .tif изображений и затем преобразовать их. Кто-нибудь может мне с этим помочь?

tesseract

Ganesh Nannaware 31.01.2014 источник

Ответы (1)

arrow_upward
22
arrow_downward

Используйте ImageMagick:

convert -density 600 input.pdf output.tif

Плотность указана в DPI, по моему опыту лучше всего работает 600 DPI.

Karol S 31.01.2014

comment

Можно ли использовать команду convert для создания нескольких выходных файлов? пожалуйста, помогите мне с его использованием. - Ganesh Nannaware; 12.04.2014

comment

@GaneshNannaware Да, может. Поместите %04d в имя выходного файла и посмотрите, как это работает. - Karol S; 12.04.2014

Преобразование отсканированных файлов PDF в файлы .txt с помощью tesseract

Ответы (1)

Похожие вопросы