Вероятно pgplot е начертал шрифтовете в текста директно с линии, вместо да използва текст. Особено след като pgplot е проектиран да извежда към огромен набор от устройства, включително плотери, където трябва да направите това.
Редактиране:
Ако имате достатъчно графики, за да си струва усилието, това е много проста задача за обработка на изображения. Преобразувайте всяка страница в нещо като tiff, в черно-хромиран праг на изображението в двоично, текстът ще бъде с максимална пикселна стойност.
Използвайте техника за съвпадение на шаблони. Ако имате ограничен набор от възможни етикети, просто съпоставете целия етикет, можете дори да започнете с шаблон с правилния размер и ротация. След това просто маркирайте всеки график като съдържащ label[1-n], няма нужда да четете действителния текст.
Ако не знаете етикета, все пак можете да направите OCR сравнително лесно, просто извлечете региона около оста, завъртете го за вертикала - и използвайте безплатната OCR библиотека на Google
Ако имате pgplot, можете дори да изградите обучителния набор за OCR или шаблонните изображения директно, вместо да се налага да ги събирате от списъка с изображения
person
Martin Beckett
schedule
08.02.2011