У меня есть куча несжатых двухтональных изображений документов TIF. Все они имеют водяной знак посередине. Когда я запускаю их через OCR, текст, который перекрывает водяной знак, не распознается. Я пытаюсь понять, могу ли я применить какую-либо очистку, чтобы удалить эти водяные знаки, чтобы иметь возможность распознавать отсутствующий текст.
Опять же, изображения черно-белые, но когда вы смотрите на водяной знак, он кажется серым, поскольку он имеет узор из черно-белых пикселей, который делает буквы водяного знака менее «плотными», чем обычный текст. В то же время буквы водяного знака очень большие, намного больше, чем обычный текст.
Примером несколько похожего изображения является это (кроме это цвет, а символы водяного знака в моем случае намного толще и больше; мои водяные знаки также намного короче: всего 3-4 буквы)
Кажется, что может быть какой-то фильтр очистки, который был бы похож на удаление больших черных рамок с изображения, за исключением того, что границы обычно «плотнее», чем водяной знак, поэтому они кажутся «более черными».
В моем распоряжении 3 инструмента: GIMP, ImageMagick и IrfanView. Можете ли вы порекомендовать какие-либо конкретные функции какого-либо подмножества этих инструментов, которые могут мне помочь?
:)
Я совершенно уверен, что это будет работать в общем случае, хотя YMWV, как всегда. - person halfer   schedule 08.03.2013