Как установить Tesseract-OCR 3.03 в дистрибутивы Ubuntu / Linux?

Мы с другом заинтересованы в обучении движка tesseract-OCR для проекта CV. Мы пробовали использовать некоторые оболочки, такие как PyTesser и pyocr, но результаты в настоящее время не так точны, как нам нужно. Таким образом, мы хотим попробовать обучить тессеракт, чтобы он лучше работал в наших целях (например, для идентификации текста на этикетках продуктов питания), но у нас возникают некоторые проблемы с установкой обучающих инструментов.

Что мы пробовали:

Глядя на веб-сайт кода Google, на странице «Компиляция» в вики-странице кода Google тессеракта написано, что инструменты обучения доступны только в версии 3.03. Однако на странице "Загрузки" кода Google для tesseract-ocr есть материалы только для версии 3.02. Внизу страницы «Компиляция» также есть комментарии об установке версии 3.03 в Windows и OSX, но для пользователей Linux комментариев нет.

Также, похоже, существует какой-то пакет исходного кода 3.03 для Ubuntu, но мы не уверены как получить к нему доступ на наших компьютерах, и на странице "Компиляция" написано, что нам нужно выполнить следующие команды:

make training
sudo make training-install

Мы также нашли ветку группы Google о tesseract 3.03, но опять же похоже, что это сообщения не содержат советов для пользователей Linux (если мы что-то не пропустили во время первоначального чтения).

Неужели это действительно простая проблема с установкой из командной строки? Или есть способ обучить тессеракт с 3.02 (который мы в настоящее время установили)? Мы искали информацию не в том месте?

Будем очень признательны за любые советы или ссылки на инструкции по установке tesseract-ocr 3.03 для дистрибутивов Linux! Спасибо.


person greenteawarrior    schedule 13.06.2014    source источник
comment
Учебные инструменты (хотя их меньше) доступны и для версии 3.02. Я успешно обучил Tesseract 3.02 распознавать подмножество шрифта OCR-B, используемого в паспортах, используя официальное руководство.   -  person Karol S    schedule 18.06.2014
comment
Я описываю процесс для Ubuntu 14.04 в учебнике в своем блоге: joyofdata.de/blog/a-guide-on-ocr-with-tesseract-3-03   -  person Raffael    schedule 16.03.2015


Ответы (4)


Tesseract можно напрямую установить в Ubuntu 14.04, используя

sudo apt-get install tesseract-ocr

Я понятия не имею, можно ли это сделать в более старой версии Ubuntu, потому что репозиторий может быть обновлен в более поздней версии Ubuntu.

person erluxman    schedule 23.12.2014

У меня был экземпляр aws ubuntu 14.04. когда я пытался установить Tesseract с

sudo apt-get install tesseract-ocr 

Перенастроенный пакет не найден

Но у меня это сработало.

sudo apt-get update
sudo apt-get install tesseract-ocr
person Venkatesh Mondi    schedule 25.09.2016
comment
не могли бы вы объяснить эти две строчки? - person YCF_L; 25.09.2016
comment
Хотя этот фрагмент кода может решить вопрос, включение объяснения действительно помогает улучшить качество вашего поста. Помните, что вы отвечаете на вопрос для читателей в будущем, и эти люди могут не знать причины вашего предложения кода. - person J. Chomel; 26.09.2016

Ubuntu - это дистрибутив Linux на основе Debian. Найденный вами пакет tesseract, скорее всего, будет пакетом debian, который будет содержать tesseract и необходимые языковые файлы по умолчанию, чтобы вы могли запускать / обучать tesseract. Вам НЕ нужен исходный пакет - если вы просто не хотите его компилировать самостоятельно - в этом нет необходимости. Вам не нужно собирать tesseract, вам просто нужно установить пакет. Во-первых, похоже, что вы новичок в Ubuntu, поэтому подготовьте Установка программного обеспечения. . Это может быть так же просто, как открыть x-термин и ввести команду apt-get install tesseract-pkgname (примечание: это означает любое имя пакета).

Нет никакого ярлыка, найдите время, чтобы понять, есть ли у вас на компьютере пакет .deb, который необходимо установить, или вы выполняете установку из удаленного репозитория. Ссылка выше объясняет, как справиться с обоими.

Вот конкретная ветка Ubuntu, посвященная установке tesseract Tesseract 3.0 + Руководство по установке Ubuntu 10.04 Надеюсь, что это поможет. Tesseract - очень хорошая программа.

person David C. Rankin    schedule 14.06.2014

У меня нет инструкций по сборке Tesseract 3.03 специально для Linux (я использую Mac), но вот ссылка для загрузки исходного кода кандидата на выпуск 3.03: https://tesseract-ocr.googlecode.com/archive/3.03-rc1.tar.gz

person kcon    schedule 09.10.2014