В нашем проекте у нас есть требование проверить данные файла PDF. Но некоторые данные в файле PDF представлены в формате изображения, поэтому мы не можем применить ту же логику, что и для сравнения текста в PDF. Мы столкнулись с проблемой проверки этого текста изображения в файле PDF. Есть ли какой-либо API, с помощью которого мы можем распознать OCR, извлечь текст из изображения и сравнить его.
Есть ли способ проверить изображение в файлах PDF?
comment
Я бы посоветовал вам разделить проблему, сначала просто извлечь растровые изображения (должно быть возможно с помощью любой библиотеки PDF общего назначения, если не используются расширенные цветовые пространства), а затем применить к изображениям OCR (для этой задачи тоже есть некоторые библиотеки).
- person mkl   schedule 31.05.2016
Ответы (2)
Можете ли вы предварительно обработать файлы PDF? Если да, попробуйте pdf2pdfocr (https://github.com/LeoFCardoso/pdf2pdfocr).
Отказ от ответственности: я разработчик pdf2pdfocr.
person
Leo Cardoso
schedule
05.06.2016
Для работы с изображениями можно попробовать -
Java для сравнения изображений, но будет очень сложно обрабатывать коды в ходе проекта.
Обычно я использую sikuli для реорганизации изображений, и это работает очень хорошо, пожалуйста, загрузите форму sikuli здесь и рабочий пример с сикули, пожалуйста, посмотрите здесь.
person
eduliant
schedule
31.05.2016