Щефан Хинтерщойсер, Оливие Поли, Хауке Хайбел, Мартина Марек, Мартин Бокело

Връзка към ArXiv — https://arxiv.org/abs/1902.09967

Изследователски проблем

Данните играят важна роля в изпълнението на модел за машинно обучение. Наличието на набори от данни, специфични за домейна, е проблем и често данните трябва да се събират и етикетират ръчно — което отнема време, скъпо е и е податливо на грешки. Евтино решение е да се генерират данни за обучение синтетично. Това позволява генериране на безкрайно количество етикетирани тренировъчни изображения с големи и контролирани вариации.

Предишни работи

Огромен брой предишни разработки са предложили техники за синтезиране на данни за обучение и основното предизвикателство, пред което са изправени всички от тях, е - преодоляване на празнината в домейна между синтезирани и изображения от реалния свят. Следователно моделите, обучени на синтетични данни, не се представят добре на данни от реалния свят.

Няколко техники като смесване на синтетични и реални данни, използване на фотореалистично изобразяване и реалистична композиция на сцена, използване на GAN, използване на архитектури със замразени предварително обучени екстрактори на функции или използване на адаптиране на домейн или трансфер на обучение и рандомизация на домейн са използвани за запълване на празнината в домейна. Но никой от тях не показа някакво значимо обещание.

Вноски

В този документ авторите -

  • Въведете нов подход за създаване на синтетични данни за обучение за откриване на обекти, които се обобщават добре към реални данни.
  • Техниката им е от тип рандомизация на домейн - промяна на симулираните данни с нереалистични промени, така че реалността да изглежда просто вариация. Това помага да се преодолее празнината в домейна.
  • Въведете процес на генериране и изобразяване, който следва стратегия на учебната програма - гарантирайки, че всички обекти на интереси са представени в мрежата еднакво при всички възможни пози, условия и сложност.
  • Те демонстрират с експерименти, че детекторите на обекти, обучени на синтетични данни за обучение, генерирани с помощта на техния подход, превъзхождат други детектори на обекти, обучени на комбинация от реални данни и синтетични данни, както и тези, обучени изцяло на реални данни.
  • Те също така предоставят подробно изследване на аблация на техния тръбопровод за генериране.

Генерационен подход

Те смесват заедно три слоя изображения — синтетичен фонов слой, слой с обект на преден план, изграден с помощта на стратегия на учебната програма и накрая слой от оклудери.

1. Генериране на фонов слой

  • Този слой се генерира с помощта на набор от 15k текстурирани 3D модела. Всички те са предварително мащабирани, така че да се поберат в единична сфера.
  • Обектите се поставят произволно на заден план с произволна поза, докато целият фон се покрие.
  • Размерът на проектираните фонови обекти се определя въз основа на размера на обекта на преден план. Той се поддържа в рамките на рандомизиран изотропен диапазон на мащабиране S = [S_min, S_max]. Това контролира размера на фоновите обекти, така че тяхната проекция към равнината на изображението да съответства на размера на средния размер на обекта на преден план.
  • Стойността на нюанса на текстурата на всеки обект се променя на случаен принцип, за да разнообрази фона.
  • Всички тези стъпки увеличават фоновия безпорядък, минимизират риска от показване на мрежата на едно и също фоново изображение два пъти и създаване на фонови изображения със структури, подобни по мащаб на обектите на преден план.
  • Всичко това, за да помогне на мрежите да научат геометричните и визуални изяви на обектите, като същевременно минимизират промените от самото научаване да разграничават синтетични обекти на преден план от обекти на фона само въз основа на различни размери на обекти или разпределение на шума.

2. Генериране на преден слой на учебната програма

  • Голям набор от пози се генерира равномерно за всеки обект на преден план чрез генериране на произволни ротации чрез рекурсивно разделяне на икосаедър - този подход дава равномерно разпределен списък от върхове върху сфера и всеки връх представлява отделен изглед на обект, дефиниран от две извън -въртене на равнината. Също така се генерират еднакви проби на ротация на място.
  • Обектът на преден план се изобразява въз основа на стратегия от учебната програма — започнете с мащаб, който е най-близо до камерата, като постепенно се отдалечавате и при всеки мащаб повтаряте всички възможни завъртания извън равнината и в равнината.
  • Разстоянието за изобразяване на обекта се взема по такъв начин, че да е обратно пропорционално на проектирания размер на обекта — това гарантира, че приблизителна линейна промяна в пикселното покритие на обекта е гарантирана при последователни нива на мащаба.
  • Допуска се припокриване между всяка двойка обекти на преден план до 30%
  • Изрязването на обекти на преден план в ъглите е разрешено до 50%

3. Генериране на оклузионен слой

  • Произволни обекти от фоновия набор от данни се поставят така, че да закриват частично обекта на преден план — в диапазон от 10% до 30%
  • Позата и цветът на обекта се рандомизират по същия начин като фоновите обекти.

4. Постобработка и сливане на слоеве

  • Фонът, предният план и оклузионните слоеве са слети в едно изображение.
  • Добавят се произволни източници на светлина с произволен цвят на светлината.
  • Добавени са бял шум и замъгляване с произволно оразмерено гаусово ядро ​​със случайно стандартно отклонение.

Експерименти

  • Хартията показва подробна информация за тяхната експериментална настройка, заедно с резултатите, демонстриращи, че тяхната техника за генериране на синтетични данни превъзхожда най-съвременните детектори, обучени върху набори от данни от реалния свят.
  • Те показват с експерименти с аблация предимствата на учебната програма срещу произволно генериране на пози, ефектите от относителното мащабиране на фонови обекти w.r.t. обекти на преден план, ефекти от количеството обекти на преден план, изобразени на изображение, предимства от използването на синтетични фонови обекти и ефекти на произволни цветове и замъгляване.
  • За синтетични спрямо реални експерименти те сравняват производителността на три модела Faster R-CNN с екстрактор на функции Inception ResNet, инициализиран с предварително обучени тегла на ImageNet. Първият е обучен на базата на метода Hinterstoisse et al 2018, където те замразяват слоевете за извличане на функции с предварително обучени тегла, обучени на данни от реалния свят, и обучават само останалите слоеве. Вторият се обучава с помощта на реални данни + увеличаване на данните. Третият на синтетични данни, генерирани с помощта на техния подход. Резултатите показват, че третият ясно превъзхожда другите два модела, както е показано на фигурата по-долу

Код на трета страна

SynthDet — е проект с отворен код от Unity, който е вдъхновен от този документ:



Те също имат блог, показващ техните експерименти:



Мисли

Подходът на тази статия показва възможността моделите, обучени на синтетични данни, да съответстват или да надминат данните от реалния свят. Този метод може да бъде от значителна полза в приложения, където не са налични големи набори от данни, специфични за домейна.