Контролираното обучение се оказа много полезен набор от инструменти за много приложения, където иначе трудно можеше да се съберат прозрения. Например откриване на слон от летателен апарат за целите на преброяването или разбиране на техните поведенчески модели за екологичен мониторинг. Тези случаи на употреба обикновено изискват ръчно почистване на изображения/видеоклипове от наземно или въздушно превозно средство. Машинното обучение може да опрости този труден процес, ако може да класифицира и идентифицира слонове от въздушни изображения. Като цяло осмислянето на големи и иначе сложни данни може да бъде опростено с машинно обучение.

Но машинното обучение изисква обучение и внедряване на модел, който би работил добре за приложението. Обучението на модел изисква големи набори от данни от анотирани изображения със съответните обекти. За да идентифицираме слон с помощта на машинно обучение, имаме нужда от 1000 изображения със слонове за обучение. Това е типично количество изображения, необходимо за класифициране или идентифициране на обекти с разумна точност. За класификацията на въздушни изображения обучението трябва да отчита различни характеристики като ъгъл на камерата, фокусна точка, увеличение и т.н. Това са характеристики, които стават критични при изграждането на точен модел за приложението. Модел, който работи добре за въздушно изображение, направено отгоре надолу (ъгъл от 90 градуса), може да не работи добре, когато изображенията се наблюдават под наклонен ъгъл.

Генериране на големи набори от данни

Едно от предизвикателствата, срещани при описанието на характеристиките при дълбокото обучение, е генерирането на голям набор от данни за изображения. В някои сценарии (класификатор за идентифициране на слонове) изображенията могат да бъдат заснети с летателно превозно средство, докато в други има значително предизвикателство при заснемането на данни от изображения. Заснемането на хиляди изображения със слонове е възможно чрез летене на летателен апарат за няколко дни. Тъй като слоновете се движат на стада в рамките на защитено място. От друга страна, заснемането на хиляди изображения с „хора“ в савани или пасища (за обучение на класификатор за идентифициране на бракониери) не е възможно. Намирането на хора в африкански защитен обект е трудно и за да се заснеме такъв голям набор от данни, трябва да се поставят хората и да се направят въздушни изображения (вижте по-долу). Ясно е, че това не е мащабируем подход. Тъй като трябва да повторим това ръчно заснемане на изображения за превозни средства и всеки друг класификатор, който трябва да бъде разработен.

Дори тогава има разлика между EO (електро оптични) и IR (инфрачервени) изображения. Заснемането на такъв голям набор от данни от изображения през нощта е по-трудно. Сложността се увеличава още повече, ако се нуждаем от класификатор, който може да идентифицира „човек“ от летателно средство, за да открие бракониери в защитено място. Комбинирайте това с възможност за заснемане на изображения под подходящ ъгъл и надморска височина, за да обучите модела.

Алтернативно решение за заснемане на реални изображения за набор от данни за обучение е използването на генериране на синтетични изображения. Синтетичните изображения могат да бъдат генерирани с двигатели на игри като Unity, Unreal или други инструменти за изобразяване. Той позволява генерирането на голям набор от данни за обучение и позволява по-бързо експериментиране с модели на машинно обучение. Това позволява добавянето на нови класификатори и откриването на обекти да се извършва при поискване. В търговската мрежа има много малко инструменти за генериране на такова синтетично изображение. AI Reverie е едно такова скорошно стартиране, което може да генерира синтетични изображения. Airsim от Microsoft Research е още един инструмент, разработен за справяне с този проблем при самоуправляващите се автомобили и дронове. Има проблеми с реализма и генерирането на изображения, които биха могли да заблудят модела на машинно обучение, ако използва невронни мрежи. Работата на MIT labsix group показва как костенурка може да се интерпретира като пушка чрез модел на невронна мрежа с много малко локализирани промени в характеристиките.

http://www.labsix.org/media/2017/10/31/video.mp4

Въпреки че синтетичните изображения ускоряват процеса на обучение на набор от данни, той има сложност с реализма. Големите обекти (брой пиксели) могат да имат много характеристики, които се идентифицират и реализмът може да стане по-лесен. Тъй като изображенията стават по-малки, реализмът става по-важен за околната среда от самия обект. Дори и при тези предизвикателства, синтетичните устройства за изображения улесняват поясненията и обучението. Синтетичните изображения биха могли да бъдат потенциално решение, но е необходима още работа, за да се направи това осъществим подход за решаване на изискването за голям набор от обучения при задълбочено обучение.

Отвъд данните

След като имаме набора за обучение, моделите и алгоритмите трябва да бъдат разработени и обучени. Тъй като разделителната способност на земята става по-малка, става значително предизвикателство да се обучават и използват машинно обучение. Скорошно изследване на Milind Tambe и екипа на USC относно PAWS дава представа за справянето с този проблем с дълбоко обучение за случай на употреба срещу бракониерството. Повече за алгоритмите и решаването на този проблем с въздушното наблюдение в бъдещ блог.

Във Vulcan работим върху решаването на предизвикателни проблеми с фокус върху Impact. Ако проявявате интерес да се присъедините към нас в усъвършенстването на машинното обучение, „посегнете“ за чат.

Забележка: Този блог е лично размишление и не е официална гледна точка на Vulcan.