Есть ли способ проверить изображение в файлах PDF?

В нашем проекте у нас есть требование проверить данные файла PDF. Но некоторые данные в файле PDF представлены в формате изображения, поэтому мы не можем применить ту же логику, что и для сравнения текста в PDF. Мы столкнулись с проблемой проверки этого текста изображения в файле PDF. Есть ли какой-либо API, с помощью которого мы можем распознать OCR, извлечь текст из изображения и сравнить его.


person SacTan    schedule 30.05.2016    source источник
comment
Я бы посоветовал вам разделить проблему, сначала просто извлечь растровые изображения (должно быть возможно с помощью любой библиотеки PDF общего назначения, если не используются расширенные цветовые пространства), а затем применить к изображениям OCR (для этой задачи тоже есть некоторые библиотеки).   -  person mkl    schedule 31.05.2016


Ответы (2)


Можете ли вы предварительно обработать файлы PDF? Если да, попробуйте pdf2pdfocr (https://github.com/LeoFCardoso/pdf2pdfocr).

Отказ от ответственности: я разработчик pdf2pdfocr.

person Leo Cardoso    schedule 05.06.2016

Для работы с изображениями можно попробовать -

  1. Java для сравнения изображений, но будет очень сложно обрабатывать коды в ходе проекта.

  2. Обычно я использую sikuli для реорганизации изображений, и это работает очень хорошо, пожалуйста, загрузите форму sikuli здесь и рабочий пример с сикули, пожалуйста, посмотрите здесь.

person eduliant    schedule 31.05.2016