Удаление лишних пикселей / линий с номерного знака

Я использую детектор функций HOG на основе классификации SVM. Я могу успешно извлечь номерной знак, но на извлеченном номерном знаке есть некоторые ненужные пиксели / линии, кроме номера лицензии. Мой конвейер обработки изображений выглядит следующим образом:

  1. Применение детектора HOG к полутоновому изображению
  2. Обрезка обнаруженной области
  3. Изменение размера обрезанного изображения
  4. Применение адаптивного порога для выделения номеров планшетов и фильтрации фона с использованием следующего кода Opencv

    cvAdaptiveThreshold(cropped_plate, thresholded_plate, 255,CV_ADAPTIVE_THRESH_GAUSSIAN_C, CV_THRESH_BINARY_INV,11, 9);
    
  5. Изображение пластины для устранения перекоса

Из-за этой ненужной информации программное обеспечение Tesseract-OCR не может правильно распознавать числа. Извлеченные изображения номерных знаков выглядят следующим образом.

введите описание изображения здесь введите описание изображения здесь

Как я могу отфильтровать эти ненужные пиксели / линии с изображений? Любая помощь будет оценена по достоинству.


person Zuhaib Ahmed    schedule 12.11.2014    source источник
comment
А как насчет эрозии-дилатации? Как насчет удаления небольшого контура?   -  person Pervez Alam    schedule 12.11.2014
comment
Было бы полезно еще немного примеров.   -  person Andrey Rubshtein    schedule 12.11.2014


Ответы (2)


Вы хотите удалить с изображения все нетекстовые объекты. Для этого я предлагаю отсортировать капли по площади их ограничивающего прямоугольника (maxy - miny) * (maxx - minx). Проведите статистический анализ; вы знаете, что ищете предметы аналогичного размера. Определив приблизительный размер символа, создайте ограничительную рамку большего размера, оценивающую весь текст. Храните в нем маленькие капли, чтобы на вашем фото сохранился знак тире.

person Boyko Perfanov    schedule 14.11.2014

Вероятно, вы сможете многого добиться, отфильтровав контуры. Попробуйте найти контуры с определенным соотношением ширины и высоты, определенным количеством белых пикселей с помощью _ 1_ и т. д. Если это не поможет, вы всегда можете попробовать реализовать алгоритм обнаружения текста, например Алгоритм сглаживания длины прогона (RLSA).

person diip_thomas    schedule 12.11.2014