Данные, необходимые для обучения Tesseract OCR для пользовательского языка

Я пытаюсь создать CUSTOM язык для обнаружения только следующих символов:

['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '<', '<<<', '/']

У меня есть почти 50 изображений, для которых я сгенерировал бокс-файлы, исправил ошибки. Мой вопрос заключается в том, чтобы обучить tesseract для вышеуказанных настраиваемых символов, необходимо ли использовать изображения, созданные с помощью инструмента tesseract, которые также будут использоваться в качестве входных данных при создании cust.traindata

Я сделал код, который из приведенного выше массива занимает 5 символов и создает изображение с помощью инструмента tesseract, а затем генерирует файл .box, который является правильным и не требует настройки для всех возможных конфигураций, но поскольку tesseract создан, он ему нужен для создания cust.traindata.

Заранее спасибо.


person Tom Antony    schedule 07.08.2017    source источник


Ответы (1)


Нам не нужно создавать новый язык, если мы хотим, чтобы tesseract использовал язык по умолчанию «eng» для предсказания следующих букв ['A', 'B', 'C', 'D', 'E', 'F', «G», «H», «I», «J», «K», «L», «M», «N», «O», «P», «Q», «R», «S». ', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '‹', '‹‹‹', '/']

Вам просто нужно добавить следующую конфигурацию в tesseract tessedit_char_whitelist="ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789‹"

eg.

tesseract input_image output_text -l eng -c tessedit_char_whitelist="ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789‹"

person Tom Antony    schedule 08.03.2018