Мой текущий сценарий оболочки выглядит следующим образом:
for i in *.pdf
do
convert -density 400 $i -depth 8 ${i/pdf/jpg}
done
for j in *.jpg
do
tesseract -l eng $j ${j/.jpg}
rm $j
mv ${j}.txt textfile
done
Итак, что он примерно делает, так это то, что для каждого файла PDF он преобразует его в файл jpg, и для каждого файла jpg я использую tesseract для преобразования его в необработанный текстовый файл. При преобразовании pdf в jpg ошибка не возникает, но tesseract может сообщать об ошибках, таких как: «Отменено повторение длины 0 из-за соединения». И мой скрипт останавливается оттуда... Есть ли способ сделать мой скрипт таким, чтобы он пропускал, как только увидит какое-то сообщение об ошибке?? Поэтому мне не нужно расшифровывать поврежденные файлы jpg и я хочу их пропустить. Любая помощь будет оценена по достоинству!