Tesseract читает только цифры из текста

Как я могу получить только числовые значения из изображения, содержащего английский текст. Я использую двигатель tesseract.

это код:

    public static String tesseractOCR(String imgPath, Rectangle rect) {
    File imageFile = new File(imgPath);
    Tesseract instance = Tesseract.getInstance();  // JNA Interface Mapping
    // Tesseract1 instance = new Tesseract1(); // JNA Direct Mapping
    String result = "";
    try {
        result = instance.doOCR(imageFile, rect);//, new Rectangle(50, 128, 405 - 50, 228 - 128)
    } catch (TesseractException e) {
        System.err.println(e.getMessage());
    }
    return result;
}

person 0_0    schedule 15.02.2014    source источник


Ответы (1)


Tesseract захватит все символы из изображения, включая алфавиты, цифры, знаки препинания и т. д. Таким образом, вам необходимо явно удалить нечисловые значения из извлеченного текста. Для этого вы можете использовать регулярные выражения.

person Don Chakkappan    schedule 01.03.2014