Има много интересни проблеми в областта на компютърното зрение. Този, върху който ще се съсредоточим, е проблемът за локализиране и откриване; наричано още откриване на обекти.

„...ние ще използваме термина разпознаване на обект широко, за да обхванем както класификацията на изображението (задача, изискваща алгоритъм за определяне какви класове обекти присъстват в изображението), така и откриването на обект (задача, изискваща алгоритъм за локализиране на всички обекти, присъстващи в изображението “ INLSVRC 2015

Откриването на обекти се използва почти навсякъде в наши дни. Случаите на използване са безкрайни, било то проследяване на обекти, видеонаблюдение, откриване на пешеходци, откриване на аномалии, преброяване на хора, самоуправляващи се автомобили или разпознаване на лица, списъкът продължава.

Откриването на обект е по-предизвикателно и съчетава тези две задачи:

Класификация на 1 изображение включва присвояване на етикет на клас на изображение : Можете ли да разберете класа, към който принадлежи изображението, като дадено изображение. Можем да разрешим всеки нов проблем с класификацията на изображения с ConvNets (или друг подобен модел) и трансфер на обучение с помощта на предварително обучени мрежи.

Локализацията на 2 обекта включва изчертаване на ограничителна рамка около един или повече обекти в изображението.

  • Вход: Изображение с един или повече обекти, като например снимка.
  • Изход: Едно или повече ограничаващи полета (напр. определени от точка, ширина и височина) и етикет на клас за всяко ограничаващо поле.

Ние просто добавяме още един изходен слой към convnets, които вече са на място, с единствената цел да предвидим координатите на ограничителната кутия и да променим нашата функция за загуба.

При такава настройка загубата е претеглена сума от Softmax загубата (от проблема с класификацията) и регресионната загуба L2 (от координатите на ограничителната кутия).

Тъй като тези две загуби биха били в различен мащаб, алфа хиперпараметърът трябва да бъде настроен.

Ефективността на модел за класифициране на изображения се оценява с помощта на средната класификационна грешка в предвидените етикети на класа. Ефективността на модел за локализация на единичен обект се оценява с помощта на разстоянието между очакваната и прогнозираната ограничителна кутия за очаквания клас. Като има предвид, че ефективността на модел за разпознаване на обекти се оценява с помощта на прецизността и припомнянето във всяко от най-добре съвпадащите ограничителни полета за известните обекти в изображението.

Сега, след като сме запознати с проблема с локализирането и откриването на обекти, нека да разгледаме някои скорошни най-ефективни модели за дълбоко обучение. (Следващи публикации част 2: Семейства модели на R-CNN & Yolo)