Възможно ли е да се обучи висококачествен модел, който предвижда 3D координатите на повърхността на тялото на животното от снимка, без съответното маркиране на DensePose? Отговорът е да!

Изследователи от Facebook AI представиха този проблем на конференцията CVPR 2020.

Относно задачата DensePose

По-рано тези изследователи представиха на научната общност нов набор от данни DensePose-COCO и архитектура на невронна мрежа, която работи с тези данни („статия“). Този набор от данни се състои от специално събрано маркиране на хора в изображения от COCO 2014.

Повече за набора от данни

Данните включват:

  • ограничителни кутии на хора на снимката,
  • перфектни за пиксели маски за преден план и заден план,
  • сегментиране на 32x части на тялото, вътре в горните маски,
  • и голям набор от тройки (c, u, v)за всяка снимка, където c е индексът на частта от тялото, u , vса геодезични координати в рамките на частта от тялото.

Те бяха сглобени по следния начин:

Задачата беше да се определи съответствието между произволно хвърлени точки върху човешкото изображение (в маската за сегментиране) и точки върху шест предварително изобразени изображения на 3D човешкия модел, т.е. върху шест 2D проекции на SMPL модела под различни ъгли. След като получиха тази маркировка, изследователите възстановиха (c, u, v) координатите за тези точки на човешката повърхност.

Съгласно този принцип бяха събрани 5 милиона точки за 50 хилядиизображения на хора в набора от данни COCO 2014.

Този вид данни ни позволиха да изградим подобен на Mask-RCNN модел за прогнозиране на маски с 3D координати от изображения.

Това решение беше забележително за последващите рокли. Тъй като невронната мрежа ви позволява да получите модел на човек, можете да поставите модел на облекло върху този модел. Примерите по-долу:

Визуализации във видео формат можете да намерите тук.

Сега за маймуните

В новия документ изследователите предлагат да се използва маркиране от DensePose-COCO и COCO Dataset за решаване на подобен проблем за прогнозиране на 3D координати на животински повърхности. Въпреки това се препоръчвада не се маркират изображенияна животни според описания по-горе алгоритъм. Твърди се, че можете да използвате съществуващото маркиране не само за шимпанзета, но и за всички други животни, които са по-малко подобни на хората по отношение на анатомията.

По този начин изследователите успяха да постигнат качество по показателя DensePose Average Precision, равен на 34,9. След като маркира данни за клас хора, моделът от първата статия показа резултат = 46,8, като се вземе предвид фактът, че показателят варира от 0 до 100. Добър резултат от прехвърлянето на знания?

За да се измери качеството на новия модел, беше необходимо да се маркират известно количество снимки на шимпанзета (по същия начин, както беше направено за хората). За да направите това, беше предложен метод за възстановяване на съответствието между SMPL точките на човешкия модел и много подробен артистичен 3D модел на шимпанзе.

Това направи възможно не само да се събере необходимата маркировка за оценка, но и да не се промени значително кодът, който измерва качеството на модела.

Покажи ми кода!

Както обикновено се случва със статиите, публикувани от известни научни групи като FAIR, те са придружени от код. И за двете статии той е достъпен в официалното хранилище detectron2 на GitHub.

Ранният код от първата статия, написан с помощта на първата версия на detectron, която е базирана на Caffe2, може да се намери и в GitHub.