pytesseract не может распознать цифры из бинарного изображения

В настоящее время я сталкиваюсь с проблемой pytesseract, когда программное обеспечение не может определить число на этом изображении:

введите здесь описание изображения

По какой-то причине pytesseract не хочет распознавать цифры на этом изображении. Какие-либо предложения? Вот мой код:

import pytesseract
from PIL import ImageEnhance, ImageFilter, Image

img = r'/content/inv_thresh.png'
​
str = pytesseract.image_to_string(Image.open(img), lang='eng', \
       config='--psm 8 --oem 3 -c tessedit_char_whitelist=0123456789')

Возвращает строку COTO


person Jackie    schedule 11.10.2019    source источник


Ответы (1)


  1. Почему вы указываете --oem 3 (Default, based on what is available.)
  2. Какую модель вы используете? Какая версия тессеракта?
  3. Tesseract ожидает, что четкое изображение без артефактов обеспечит правильные результаты => вам потребуется более качественная предварительная обработка изображения.

Я получил следующий результат с режимом tessdata_best с последним tesseract (4.1/5.0alpha):

tesseract a9Uq4.png - --psm 8 --dpi 70
00308
person user898678    schedule 12.10.2019
comment
Привет, я, честно говоря, не уверен, какую модель я использовал. Я просто pip install pytesseract запускаю следующую команду. Я действительно застрял с получением четкого изображения цифр. Это не должно быть сложной задачей, но мне требуется много времени, чтобы получить правильные цифры из таких изображений всего с 5 цифрами. - person Jackie; 13.10.2019
comment
pytesseract не устанавливает модель tesseract или tesseract (pytesseract — это просто оболочка вокруг tesseract). Ты сделал это. Вы должны знать/понимать, что вы делаете, иначе вы должны быть довольны случайным успехом. - person user898678; 14.10.2019