Трябва да конвертирам .pdf
файл, съдържащ сканирани изображения, в .txt
файла. tesseract ocr
преобразува само изображения в .txt
, но трябва първо да извлека .tif
изображенията и след това да ги конвертирам. Може ли някой да ми помогне с това?
Конвертирайте сканирани pdf в .txt файлове с помощта на teseract
Отговори (1)
Използвайте Imagemagick:
convert -density 600 input.pdf output.tif
Плътността е в DPI, от моя опит 600 DPI работи най-добре.
person
Karol S
schedule
31.01.2014
Може ли командата convert да се използва за създаване на множество изходни файлове? моля, помогнете ми с използването му.
- person Ganesh Nannaware; 12.04.2014
@GaneshNannaware Да, може. Поставете
%04d
в името на изходния файл и вижте как работи.
- person Karol S; 12.04.2014