Мне нужно преобразовать файл .pdf
, содержащий отсканированные изображения, в файлы .txt
. tesseract ocr
преобразует только изображения в .txt
, но мне нужно сначала извлечь .tif
изображений и затем преобразовать их. Кто-нибудь может мне с этим помочь?
Преобразование отсканированных файлов PDF в файлы .txt с помощью tesseract
Ответы (1)
Используйте ImageMagick:
convert -density 600 input.pdf output.tif
Плотность указана в DPI, по моему опыту лучше всего работает 600 DPI.
person
Karol S
schedule
31.01.2014
Можно ли использовать команду convert для создания нескольких выходных файлов? пожалуйста, помогите мне с его использованием.
- person Ganesh Nannaware; 12.04.2014
@GaneshNannaware Да, может. Поместите
%04d
в имя выходного файла и посмотрите, как это работает.
- person Karol S; 12.04.2014