Я пытаюсь создать непрерывную унифицированную модель, которая обнаруживает (локализует) объект на изображении. Сам объект может быть многих типов, например «текст в дикой природе», но окружающие его особенности должны определять, где находится интересующая область.
Как распознавать человеческое лицо, не учитывая его черты. То есть некоторая дистанция ярости на шее.
Я ожидаю, что на выходе будут координаты объекта или что-то вроде формата image-net для создания ограничивающих рамок, например: [xmin, ymin, xmax, ymax] У меня есть набор данных из 500 изображений. Есть ли примеры обнаружения объектов в тензорном потоке по окружающим признакам. то есть карты функций из conv1 или conv2. ?