Текущият ми shell скрипт е така:
for i in *.pdf
do
convert -density 400 $i -depth 8 ${i/pdf/jpg}
done
for j in *.jpg
do
tesseract -l eng $j ${j/.jpg}
rm $j
mv ${j}.txt textfile
done
Така че това, което грубо прави, е, че за всеки pdf файл го преобразува в jpg файл и за всеки jpg файл използвам teseract, за да го конвертирам в необработен текстов файл. Няма възможна грешка, идваща от преобразуването на pdf в jpg, но е възможно teseract да докладва грешки като: „Отменено повторение с дължина 0 поради присъединяване“. И скриптът ми спира от там... Има ли начин да направя скрипта си така, че да прескача, щом види някакво отчитане на грешка?? Така че не е необходимо да транскрибирам повредените jpg файлове и искам да ги пропусна. Всякакъв вид помощ ще бъде оценена!