Конвертирайте сканирани pdf в .txt файлове с помощта на teseract

Трябва да конвертирам .pdf файл, съдържащ сканирани изображения, в .txt файла. tesseract ocr преобразува само изображения в .txt, но трябва първо да извлека .tif изображенията и след това да ги конвертирам. Може ли някой да ми помогне с това?

tesseract

Ganesh Nannaware 31.01.2014 източник

Отговори (1)

arrow_upward
22
arrow_downward

Използвайте Imagemagick:

convert -density 600 input.pdf output.tif

Плътността е в DPI, от моя опит 600 DPI работи най-добре.

Karol S 31.01.2014

comment

Може ли командата convert да се използва за създаване на множество изходни файлове? моля, помогнете ми с използването му. - Ganesh Nannaware; 12.04.2014

comment

@GaneshNannaware Да, може. Поставете %04d в името на изходния файл и вижте как работи. - Karol S; 12.04.2014

Конвертирайте сканирани pdf в .txt файлове с помощта на teseract

Отговори (1)

Подобни въпроси