Данные, необходимые для обучения Tesseract OCR для пользовательского языка

Я пытаюсь создать CUSTOM язык для обнаружения только следующих символов:

['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '<', '<<<', '/']

У меня есть почти 50 изображений, для которых я сгенерировал бокс-файлы, исправил ошибки. Мой вопрос заключается в том, чтобы обучить tesseract для вышеуказанных настраиваемых символов, необходимо ли использовать изображения, созданные с помощью инструмента tesseract, которые также будут использоваться в качестве входных данных при создании cust.traindata

Я сделал код, который из приведенного выше массива занимает 5 символов и создает изображение с помощью инструмента tesseract, а затем генерирует файл .box, который является правильным и не требует настройки для всех возможных конфигураций, но поскольку tesseract создан, он ему нужен для создания cust.traindata.

Заранее спасибо.

training-data tesseract

Tom Antony 07.08.2017 источник

Ответы (1)

arrow_upward
0
arrow_downward

Нам не нужно создавать новый язык, если мы хотим, чтобы tesseract использовал язык по умолчанию «eng» для предсказания следующих букв ['A', 'B', 'C', 'D', 'E', 'F', «G», «H», «I», «J», «K», «L», «M», «N», «O», «P», «Q», «R», «S». ', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '‹', '‹‹‹', '/']

Вам просто нужно добавить следующую конфигурацию в tesseract tessedit_char_whitelist="ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789‹"

eg.

tesseract input_image output_text -l eng -c tessedit_char_whitelist="ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789‹"

Tom Antony 08.03.2018

Данные, необходимые для обучения Tesseract OCR для пользовательского языка

Ответы (1)

Похожие вопросы