Tesseract читает только цифры из текста

Как я могу получить только числовые значения из изображения, содержащего английский текст. Я использую двигатель tesseract.

это код:

    public static String tesseractOCR(String imgPath, Rectangle rect) {
    File imageFile = new File(imgPath);
    Tesseract instance = Tesseract.getInstance();  // JNA Interface Mapping
    // Tesseract1 instance = new Tesseract1(); // JNA Direct Mapping
    String result = "";
    try {
        result = instance.doOCR(imageFile, rect);//, new Rectangle(50, 128, 405 - 50, 228 - 128)
    } catch (TesseractException e) {
        System.err.println(e.getMessage());
    }
    return result;
}

ocr tesseract javacv

0_0 15.02.2014 источник

Ответы (1)

arrow_upward
0
arrow_downward

Tesseract захватит все символы из изображения, включая алфавиты, цифры, знаки препинания и т. д. Таким образом, вам необходимо явно удалить нечисловые значения из извлеченного текста. Для этого вы можете использовать регулярные выражения.

Don Chakkappan 01.03.2014

Tesseract читает только цифры из текста

Ответы (1)

Похожие вопросы