Я пытаюсь реализовать tesseract (tess-two) для чтения данных одного идентификатора или проверки. Мог ли кто-то это сделать? У меня проблемы с распознаванием текста. Результат имеет много лишних символов
Идентификатор чтения Tesseract OCR для Android
Ответы (1)
По своему опыту работы с Tesseract OCR я обнаружил, что получаю гораздо лучшие результаты, если преобразовываю изображение в двоичный байт (пиксели либо черные, либо белые). Механизмы OCR, как правило, работают лучше при высокой контрастности. Информацию о том, как преобразовать растровые изображения Android в двоичные изображения, см. в этом вопросе (Android : преобразование оттенков серого в двоичное изображение).
По этой ссылке объясняется, почему черно-белые изображения работают лучше, а также рассказывается о других способах повышения точности оптического распознавания символов (https://marinersoftware.deskpro.com/kb/articles/294-what-steps-can-be-taken-to-improve-the-accuracy-of-ocr-results-in-paperless).
Хотя предварительная обработка входного изображения повысит точность, также может оказаться полезной постобработка выходного текста.