tesseract не читает текст и число, которое имеет фоновое изображение, используя java

Я попытался прочитать изображение с помощью tess4j (1.1) для tesseract, но не смог прочитать те числа / символы, которые имеют фоновое изображение, поэтому я применил пороговую обработку изображения и изменение изображения на черно-белое, но проблема остается той же.

Итак, я хочу знать это,

возможно ли с помощью tess4j (tesserarct) читать символы / числа, которые имеют цвет фона или изображение в фоновом режиме. Если это возможно, попробуйте дать некоторые подсказки.

OR

можно ли получить результат, внеся некоторые изменения в обученные данные для распознавания символов

Для таких сценариев доступен только javacv, а не tesseract?

Я также нахожу возможность с нейронной сетью, но, похоже, для этого требуется больше времени.

Есть какое-нибудь решение для этого?

Пример использования tess4j:

File imageFile = new File("myimage.jpg");

Tesseract instance = Tesseract.getInstance();

String result = instance.doOCR(imageFile);

System.out.println(result);

person Ruju    schedule 13.03.2013    source источник
comment
Можете выложить пример своего изображения?   -  person nguyenq    schedule 14.03.2013
comment
привет, вы можете проверить изображение здесь ›3.bp.blogspot.com/-rNbn4r1p2lE/UCUdqjlJU4I/AAAAAAAALdk/   -  person Ruju    schedule 14.03.2013


Ответы (2)


Тессеракт - не лучший способ обработки изображений.

Доступны и другие лучшие варианты, такие как нейронная сеть, сопоставление шаблонов и другие.

В любом случае необходимо очистить фон изображения, поэтому используйте javacv для очистки фона изображения.

И до сих пор tesseract не мог идентифицировать числа. Поэтому я думаю, что нейронная сеть - хороший вариант для чтения текста изображения, и с его помощью я могу получить результат точности около 60% +.

person Ruju    schedule 30.04.2013