Tesseract чете само числа от текст

Как мога да получа само цифровите стойности от изображението, съдържащо английски текст. Използвам teseract engine.

това е кодът:

    public static String tesseractOCR(String imgPath, Rectangle rect) {
    File imageFile = new File(imgPath);
    Tesseract instance = Tesseract.getInstance();  // JNA Interface Mapping
    // Tesseract1 instance = new Tesseract1(); // JNA Direct Mapping
    String result = "";
    try {
        result = instance.doOCR(imageFile, rect);//, new Rectangle(50, 128, 405 - 50, 228 - 128)
    } catch (TesseractException e) {
        System.err.println(e.getMessage());
    }
    return result;
}

ocr tesseract javacv

0_0 15.02.2014 източник

Отговори (1)

arrow_upward
0
arrow_downward

Tesseract ще вземе всички знаци от изображението, включително азбуки, числа, препинателни знаци и т.н. Така че трябва изрично да премахнете нечисловите стойности от извлечения текст. Можете да използвате регулярни изрази за това.

Don Chakkappan 01.03.2014

Tesseract чете само числа от текст

Отговори (1)

Подобни въпроси