Tesseract чете само числа от текст

Как мога да получа само цифровите стойности от изображението, съдържащо английски текст. Използвам teseract engine.

това е кодът:

    public static String tesseractOCR(String imgPath, Rectangle rect) {
    File imageFile = new File(imgPath);
    Tesseract instance = Tesseract.getInstance();  // JNA Interface Mapping
    // Tesseract1 instance = new Tesseract1(); // JNA Direct Mapping
    String result = "";
    try {
        result = instance.doOCR(imageFile, rect);//, new Rectangle(50, 128, 405 - 50, 228 - 128)
    } catch (TesseractException e) {
        System.err.println(e.getMessage());
    }
    return result;
}

person 0_0    schedule 15.02.2014    source източник


Отговори (1)


Tesseract ще вземе всички знаци от изображението, включително азбуки, числа, препинателни знаци и т.н. Така че трябва изрично да премахнете нечисловите стойности от извлечения текст. Можете да използвате регулярни изрази за това.

person Don Chakkappan    schedule 01.03.2014