Как се инсталира Tesseract-OCR 3.03 в дистрибуции на Ubuntu/Linux?

Един приятел и аз се интересуваме от обучението на tesseract-OCR двигателя за CV проект. Опитахме да използваме някои обвивки като PyTesser и pyocr, но резултатите в момента не са толкова точни, колкото ни трябва. Поради това искаме да опитаме да обучим тесеракта да работи по-добре за нашите цели (т.е. идентифициране на текст върху етикетите на храни), но имаме проблеми с инсталирането на инструментите за обучение.

Какво опитахме:

Разглеждайки уебсайта на google code, страницата „Компилиране“ в wiki на google code на tesseract казва, инструментите за обучение са налични само във версия 3.03. Въпреки това страницата „Изтегляния“ на кода на Google за tesseract-ocr съдържа само материалите за 3.02. В долната част на страницата „Компилиране“ също има някои коментари относно инсталирането на версия 3.03 на Windows и OSX, но все още няма коментари за потребителите на Linux.

Изглежда също, че има някакъв пакет с изходен код 3.03 за Ubuntu, но не сме сигурни как да получим достъп до него на нашите компютри и страницата „Компилиране“ казва, че трябва да изпълним тези команди:

make training
sudo make training-install

Също така намерихме групова нишка в Google за tesseract 3.03, но отново изглежда така публикациите не включват съвети за потребители на Linux (освен ако не сме пропуснали нещо по време на първоначалното четене).

Това наистина ли е наистина прост проблем при инсталиране от командния ред? Или има ли начин тесеракт да се обучи с 3.02 (който в момента имаме инсталиран)? Дали не сме търсили информация на грешните места?

Всички съвети или връзки към инструкции за инсталиране на tesseract-ocr 3.03 за дистрибуции на Linux ще бъдат много оценени! Благодаря.


person greenteawarrior    schedule 13.06.2014    source източник
comment
Инструментите за обучение (макар и по-малко от тях) са налични и за 3.02. Успешно обучих Tesseract 3.02 да разпознава подмножество от OCR-B шрифт, използван в паспортите, използвайки официално ръководство.   -  person Karol S    schedule 18.06.2014
comment
Описвам процеса за Ubuntu 14.04 в урок в моя блог: joyofdata.de/blog/a-guide-on-ocr-with-tesseract-3-03   -  person Raffael    schedule 16.03.2015


Отговори (4)


Tesseract може директно да се инсталира в Ubuntu 14.04 с помощта на

sudo apt-get install tesseract-ocr

Нямам представа дали можете да го направите в по-стара версия на Ubuntu, защото репото може да бъде актуализирано в по-късна версия на Ubuntu.

person erluxman    schedule 23.12.2014

Имах екземпляр на aws ubuntu 14.04. когато се опитах да инсталирам Tesseract с

sudo apt-get install tesseract-ocr 

Пренастроеният пакет не е намерен

Но това ми помогна.

sudo apt-get update
sudo apt-get install tesseract-ocr
person Venkatesh Mondi    schedule 25.09.2016
comment
можете ли да обясните тези два реда, моля? - person YCF_L; 25.09.2016
comment
Докато този кодов фрагмент може да реши въпроса, включването на обяснение наистина помага за подобряване качеството на вашата публикация. Не забравяйте, че вие ​​отговаряте на въпроса за читателите в бъдеще и тези хора може да не знаят причините за вашето предложение за код. - person J. Chomel; 26.09.2016

Ubuntu е базирана на Debian Linux дистрибуция. Пакетът tesseract, който намерите, най-вероятно ще бъде пакет debian, който ще съдържа teseract и необходимите езикови файлове по подразбиране, за да ви позволи да изпълнявате/обучавате teseract. Вие НЕ искате пакета изходен код -- освен ако просто не искате да го компилирате сами -- няма нужда. Няма да се налага да създавате тесеракт, просто трябва да инсталирате пакета. Първо, изглежда, че сте нов в Ubuntu, така че, моля, бъдете готови Инсталиране на софтуер . Може да бъде толкова лесно, колкото да отворите x-term и да издадете командата apt-get install tesseract-pkgname (забележка: това означава каквото и да е името на пакета).

Няма пряк път, отделете време, за да разберете дали имате .deb пакет в кутията си, който трябва да бъде инсталиран, или инсталирате от отдалечено хранилище. Връзката по-горе обяснява как да се справите и с двете.

Ето конкретна тема за Ubuntu, която се занимава с инсталирането на tesseract Tesseract 3.0 + Ръководство за инсталиране на Ubuntu 10.04 Надявам се това да помогне. Tesseract е много добър софтуер.

person David C. Rankin    schedule 14.06.2014

Нямам инструкции за изграждане на Tesseract 3.03 конкретно за Linux (на Mac съм), но ето връзка за изтегляне на изходния код за кандидата за версия 3.03: https://tesseract-ocr.googlecode.com/archive/3.03-rc1.tar.gz

person kcon    schedule 09.10.2014