У меня есть приложение, в котором технические спецификации распознаются с помощью API tesseract. Я инициализирую это так:
tesseract::TessBaseAPI tess;
tess.Init(NULL, "eng", tesseract::OEM_TESSERACT_ONLY);
Однако даже после использования настраиваемых белых списков, подобных этому
tess.SetVariable("tessedit_char_blacklist", "");
tess.SetVariable("tessedit_char_whitelist", myWhitelist);
некоторые записи таблицы распознаются неправильно, например PA3
распознается как FAB
.
Как я могу отключить распознавание текста с помощью словаря, т.е. Чтобы не влиять на другие инструменты, я не хочу изменять глобальные файлы конфигурации, если это возможно.
Примечание. Это не дубликат этого предыдущего вопрос, потому что указанный вопрос явно запрашивает инструмент командной строки, а я явно запрашиваю API tesseract.