Есть ли способ проверить изображение в файлах PDF?

В нашем проекте у нас есть требование проверить данные файла PDF. Но некоторые данные в файле PDF представлены в формате изображения, поэтому мы не можем применить ту же логику, что и для сравнения текста в PDF. Мы столкнулись с проблемой проверки этого текста изображения в файле PDF. Есть ли какой-либо API, с помощью которого мы можем распознать OCR, извлечь текст из изображения и сравнить его.

SacTan 30.05.2016 источник

comment

Я бы посоветовал вам разделить проблему, сначала просто извлечь растровые изображения (должно быть возможно с помощью любой библиотеки PDF общего назначения, если не используются расширенные цветовые пространства), а затем применить к изображениям OCR (для этой задачи тоже есть некоторые библиотеки). - mkl 31.05.2016

Ответы (2)

arrow_upward
0
arrow_downward

Можете ли вы предварительно обработать файлы PDF? Если да, попробуйте pdf2pdfocr (https://github.com/LeoFCardoso/pdf2pdfocr).

Отказ от ответственности: я разработчик pdf2pdfocr.

Leo Cardoso 05.06.2016

arrow_upward
0
arrow_downward

Для работы с изображениями можно попробовать -

Java для сравнения изображений, но будет очень сложно обрабатывать коды в ходе проекта.
Обычно я использую sikuli для реорганизации изображений, и это работает очень хорошо, пожалуйста, загрузите форму sikuli здесь и рабочий пример с сикули, пожалуйста, посмотрите здесь.

eduliant 31.05.2016

Есть ли способ проверить изображение в файлах PDF?

Ответы (2)

Похожие вопросы