Мы с другом заинтересованы в обучении движка tesseract-OCR для проекта CV. Мы пробовали использовать некоторые оболочки, такие как PyTesser и pyocr, но результаты в настоящее время не так точны, как нам нужно. Таким образом, мы хотим попробовать обучить тессеракт, чтобы он лучше работал в наших целях (например, для идентификации текста на этикетках продуктов питания), но у нас возникают некоторые проблемы с установкой обучающих инструментов.
Что мы пробовали:
Глядя на веб-сайт кода Google, на странице «Компиляция» в вики-странице кода Google тессеракта написано, что инструменты обучения доступны только в версии 3.03. Однако на странице "Загрузки" кода Google для tesseract-ocr есть материалы только для версии 3.02. Внизу страницы «Компиляция» также есть комментарии об установке версии 3.03 в Windows и OSX, но для пользователей Linux комментариев нет.
Также, похоже, существует какой-то пакет исходного кода 3.03 для Ubuntu, но мы не уверены как получить к нему доступ на наших компьютерах, и на странице "Компиляция" написано, что нам нужно выполнить следующие команды:
make training
sudo make training-install
Мы также нашли ветку группы Google о tesseract 3.03, но опять же похоже, что это сообщения не содержат советов для пользователей Linux (если мы что-то не пропустили во время первоначального чтения).
Неужели это действительно простая проблема с установкой из командной строки? Или есть способ обучить тессеракт с 3.02 (который мы в настоящее время установили)? Мы искали информацию не в том месте?
Будем очень признательны за любые советы или ссылки на инструкции по установке tesseract-ocr 3.03 для дистрибутивов Linux! Спасибо.