Как се инсталира Tesseract-OCR 3.03 в дистрибуции на Ubuntu/Linux?

Един приятел и аз се интересуваме от обучението на tesseract-OCR двигателя за CV проект. Опитахме да използваме някои обвивки като PyTesser и pyocr, но резултатите в момента не са толкова точни, колкото ни трябва. Поради това искаме да опитаме да обучим тесеракта да работи по-добре за нашите цели (т.е. идентифициране на текст върху етикетите на храни), но имаме проблеми с инсталирането на инструментите за обучение.

Какво опитахме:

Разглеждайки уебсайта на google code, страницата „Компилиране“ в wiki на google code на tesseract казва, инструментите за обучение са налични само във версия 3.03. Въпреки това страницата „Изтегляния“ на кода на Google за tesseract-ocr съдържа само материалите за 3.02. В долната част на страницата „Компилиране“ също има някои коментари относно инсталирането на версия 3.03 на Windows и OSX, но все още няма коментари за потребителите на Linux.

Изглежда също, че има някакъв пакет с изходен код 3.03 за Ubuntu, но не сме сигурни как да получим достъп до него на нашите компютри и страницата „Компилиране“ казва, че трябва да изпълним тези команди:

make training
sudo make training-install

Също така намерихме групова нишка в Google за tesseract 3.03, но отново изглежда така публикациите не включват съвети за потребители на Linux (освен ако не сме пропуснали нещо по време на първоначалното четене).

Това наистина ли е наистина прост проблем при инсталиране от командния ред? Или има ли начин тесеракт да се обучи с 3.02 (който в момента имаме инсталиран)? Дали не сме търсили информация на грешните места?

Всички съвети или връзки към инструкции за инсталиране на tesseract-ocr 3.03 за дистрибуции на Linux ще бъдат много оценени! Благодаря.

greenteawarrior 13.06.2014 източник

comment

Инструментите за обучение (макар и по-малко от тях) са налични и за 3.02. Успешно обучих Tesseract 3.02 да разпознава подмножество от OCR-B шрифт, използван в паспортите, използвайки официално ръководство. - Karol S 18.06.2014

comment

Описвам процеса за Ubuntu 14.04 в урок в моя блог: joyofdata.de/blog/a-guide-on-ocr-with-tesseract-3-03 - Raffael 16.03.2015

Отговори (4)

arrow_upward
27
arrow_downward

Tesseract може директно да се инсталира в Ubuntu 14.04 с помощта на

sudo apt-get install tesseract-ocr

Нямам представа дали можете да го направите в по-стара версия на Ubuntu, защото репото може да бъде актуализирано в по-късна версия на Ubuntu.

erluxman 23.12.2014

arrow_upward
4
arrow_downward

Имах екземпляр на aws ubuntu 14.04. когато се опитах да инсталирам Tesseract с

sudo apt-get install tesseract-ocr

Пренастроеният пакет не е намерен

Но това ми помогна.

sudo apt-get update
sudo apt-get install tesseract-ocr

Venkatesh Mondi 25.09.2016

comment

можете ли да обясните тези два реда, моля? - YCF_L; 25.09.2016

comment

Докато този кодов фрагмент може да реши въпроса, включването на обяснение наистина помага за подобряване качеството на вашата публикация. Не забравяйте, че вие отговаряте на въпроса за читателите в бъдеще и тези хора може да не знаят причините за вашето предложение за код. - J. Chomel; 26.09.2016

arrow_upward
3
arrow_downward

Ubuntu е базирана на Debian Linux дистрибуция. Пакетът tesseract, който намерите, най-вероятно ще бъде пакет debian, който ще съдържа teseract и необходимите езикови файлове по подразбиране, за да ви позволи да изпълнявате/обучавате teseract. Вие НЕ искате пакета изходен код -- освен ако просто не искате да го компилирате сами -- няма нужда. Няма да се налага да създавате тесеракт, просто трябва да инсталирате пакета. Първо, изглежда, че сте нов в Ubuntu, така че, моля, бъдете готови Инсталиране на софтуер . Може да бъде толкова лесно, колкото да отворите x-term и да издадете командата apt-get install tesseract-pkgname (забележка: това означава каквото и да е името на пакета).

Няма пряк път, отделете време, за да разберете дали имате .deb пакет в кутията си, който трябва да бъде инсталиран, или инсталирате от отдалечено хранилище. Връзката по-горе обяснява как да се справите и с двете.

Ето конкретна тема за Ubuntu, която се занимава с инсталирането на tesseract Tesseract 3.0 + Ръководство за инсталиране на Ubuntu 10.04 Надявам се това да помогне. Tesseract е много добър софтуер.

David C. Rankin 14.06.2014

arrow_upward
1
arrow_downward

Нямам инструкции за изграждане на Tesseract 3.03 конкретно за Linux (на Mac съм), но ето връзка за изтегляне на изходния код за кандидата за версия 3.03: https://tesseract-ocr.googlecode.com/archive/3.03-rc1.tar.gz

kcon 09.10.2014

Как се инсталира Tesseract-OCR 3.03 в дистрибуции на Ubuntu/Linux?

Отговори (4)

Подобни въпроси