Коригиране на най-големия проблем на SimCLR

Как BYOL представи новата идея SOTA за всички съвременни рамки за самоконтролирано обучение.

SimCLR успешно реализира идеята за контрастно обучение и тогава постигна ново най-съвременно представяне! Въпреки това идеята има фундаментални слабости! Неговата чувствителност към специфични увеличения и нуждата от много големи партиди, за да осигури голям набор от отрицателни примери. С други думи, разчитането на тези отрицателни проби е досадно.
Bootstrap Your Own Latent — A new approach to self-supervised Learning, накратко BYOL, от изследователи от DeepMind, прилага напълно нов подход за обучение на Self -Надзорни модели, които се надяваме да избегнат колапс на представителството! И е напълно странно, че работи на първо място...

И така, нека се върнем към нашия конвейер с двоен изглед и да помислим за друга идея, как да избегнем колапса.

Проблемът е, че и по двата пътя обучаваме една и съща мрежа, която може просто да се научи да предсказва един и същ постоянен вектор за всеки вход. Тогава това се нарича свиване на представянето.

Ето една луда идея!
Ами ако обучим само една мрежа и просто произволно инициализираме втората и замразим нейните тегла?!

Това е почти същата идея като в моделите ученик-учител или дестилация на знания, където обучаемата мрежа се нарича онлайн мрежа, а фиксираната мрежа тук – целевата мрежа. По този начин онлайн мрежата се научава да приближава прогнозираните цели, произведени от мрежата с фиксирана цел.

Но какво, по дяволите, се случва тук? Това са глупости!
Да, това избягва колапса, но онлайн мрежата сега просто се учи да копира прогнозите на произволно инициализирана мрежа! Създадените изображения не могат да бъдат добри! Което е вярно! Авторите на BYOL изпробваха това и постигнаха 18,8% точност на топ-1 на протокола за линейна оценка на ImageNet с онлайн мрежата, но тук идва лудата част, произволно инициализираната целева мрежа постига само 1,4% сама! Това означава, че колкото и малко смисъл да има всичко това, от дадено представяне, наричано цел, можем да обучим ново, потенциално подобрено представяне, наричано онлайн, като просто предскажем целевото представяне.

Това експериментално откритие беше основната мотивация за BYOL и това беше нов подход към самоконтролираното обучение, което е част от сега така нареченото „семейство за самодестилация“.
Отново BYOL обучава онлайн мрежата да прогнозира представянето на целевата мрежа на същото изображение под различен разширен изглед.

Въпреки това, ние, разбира се, трябва да надграждаме върху това експериментално откритие, за да произведем по-добри резултати от споменатите 18,8% точност от първо място. Ясно е, че трябва да направим нещо срещу тази просто произволно инициализирана целева мрежа. Авторите предлагат целевата мрежа да бъде същата архитектура като онлайн мрежата, но да използва различен набор от тегла. Целевите параметри сега са експоненциална пълзяща средна на онлайн параметрите. Въпреки това, ако се вгледаме внимателно, няма нищо, което да предотврати колапса! И самите автори признават това в статията. Онлайн и целевите мрежи все още могат извънредно време да се сближат до свито представяне!

„Докато тази цел допуска свити решения, например извеждане на един и същ вектор за всички изображения, ние емпирично показваме, че BYOL не се сближава с такива решения.“

Архитектурата

Нека направим крачка назад от тази черна магия, да съберем всичко обратно и да разгледаме точните схеми, използвани в BYOL.

Тук можем да видим точната идея, която обсъждахме досега! Имаме входно изображение и отново произвеждаме два различни изгледа чрез прилагане на два различни набора от произволни увеличения. Използваме два различни пътя за прогнозиране, онлайн и целеви път, които използват една и съща мрежова архитектура, но различни набори от параметри. Параметрите на целевата мрежа са експоненциална пълзяща средна на онлайн мрежата. Това по-конкретно означава, че ние актуализираме целевите параметри, като мащабираме предишните му параметри с τ и добавяме параметрите на онлайн мрежите, мащабирани с 1 — τ.

Авторите, например, задават τ=0,99, което означава, че те само леко променят целевите параметри, като добавят онлайн параметрите, мащабирани с 0,01.

Загубата

Тъй като най-накрая вече нямаме контрастни примери, не се нуждаем и от контрастна загуба. Загубата за BYOL е просто средната квадратна грешка между нормализираните прогнози и нормализираните целеви прогнози.

Е, това е почти цялата загуба. Както можете да видите, вземаме загубата между изходите на две различни нива във всеки клон. Всеки тръбопровод, онлайн и целеви, се състои от следните мрежи. Представителната мрежа f, която ще използваме в задачи надолу по веригата, и проекционна мрежа g, както вече се вижда в SimCLR! Онлайн клонът сега допълнително включва глава за прогнозиране q, което прави цялата архитектура асиметрична между онлайн и целевия тръбопровод. Какво означава това за загубата е, че авторите я симетризират, като веднъж подават view v през онлайн и view v’ през целевата мрежа и втори път разменят двата изгледа.

И това е целият подход, предложен в BYOL!

Резултати и интуиция

Обучението на ResNet50 с помощта на BYOL и оценяването на ImageNet, разбира се, превъзхожда всички други неконтролирани базови линии, включително нашия обсъден по-рано SimCLR, и се доближава изненадващо близо до напълно контролираните модели!

Това не означава, че BYOL винаги превъзхожда другите модели.

Когато се обучаваме предварително в ImageNet и разглеждаме резултатите от обучението на Transfer в различни бенчмаркове, можем да видим, че BYOL не винаги се представя най-добре! Освен това е интересно да се види, че докладът на автора възпроизвежда резултати от SimCLR, които се представят по-добре от тези, просто взети от оригиналната хартия. Авторите не уточняват по-подробно тези констатации и не са много последователни, когато използват възпроизведени SimCLR и само препратени резултати от SimCLR.

Но като оставим това настрана, те извършват по-задълбочено сравнение със SimCLR! Вероятно най-важната причина, поради която искахме алтернатива на контрастните подходи като SimCLR, беше да намалим чувствителността, която идва с разчитането на отрицателни проби.

Що се отнася до ефектите от размера на партидата, превъзходството на BYOL пред SimCLR е очевидно! BYOL е много по-малко чувствителен към по-малки размери на партиди от SimCLR. Което има смисъл! При намаляване на размера на партидата до само 256 проби, точността на топ-1 на BYOL пада само с 0,6%, докато за SimCLR, тя пада с 3,4%! Големият спад, който идва с намаляването на размера на партидата до 128 проби, се дължи на неговия ефект върху слоя за нормализиране на партидата.

Също така вече обсъдихме колко чувствителен е SimCLR към набора от приложени подобрения!

Отново можем да видим, че BYOL е много по-малко чувствителен към премахването на важни подобрения. В крайна сметка, когато се извършва само изрязване, точността на топ 1 на BYOL пада с около 13%, докато за SimCLR, тя пада с около 28%! Както вече споменах в моята публикация в SimCLR, това значително разчитане на комбинирането на изрязване с трептене на цвета в случая на SimCLR е защото, без цветовите добавки, моделът се научава просто да разграничава хистограмите. Вместо това BYOL е стимулиран да съхранява всяка информация, уловена от целевото представяне, в своята онлайн мрежа, за да подобри своите прогнози. С други думи, дори ако разширените изгледи на едно и също изображение споделят една и съща цветна хистограма, BYOL все още е стимулиран да запази допълнителни функции в своето представяне. Поради тази причина авторите поне вярват, че BYOL е по-стабилен при избора на увеличаване на изображението, отколкото контрастните методи.

Авторите вярват така? Това е наистина страхотно и очевидно емпирично работи феноменално. Но защо работи? Защо не се срива?
Както споменахме, авторите нямат математическо доказателство, че този подход избягва срива, но са направили няколко емпирични наблюдения върху това какво работи и какво не и са изложили няколко хипотези като защо BYOL работи.

Вероятно най-важното е добавянето на предиктора и гарантирането, че той е почти оптимален. Всъщност авторите предполагат, че основната роля на целевата мрежа на BYOL е да гарантира почти оптималността на предиктора спрямо обучението. Те дори са открили, че могат напълно да премахнат функционалността на целевата мрежа без колапс, като направят предиктора почти оптимален, използвайки други методи.

Нека се опитаме да изградим малко интуиция! Не забравяйте, че BYOL използва проектираното представяне z на тази целева мрежа, чиито тегла са експоненциална подвижна средна на теглата на онлайн мрежата, като цел за своите онлайн прогнози, използвайки допълнителния предиктор! По този начин теглата на целевата мрежа представляват забавена и по-стабилна версия на теглата на онлайн мрежата. Авторите извършват няколко проучвания за аблация, за да развият интуиция за важността на правилната комбинация от целевата мрежа на EMA и предиктора.

В лявата таблица можем да видим как се представя моделът при различни изчисления на EMA. Първият случай, τ = 1, е точният експеримент, който описах в началото, където целевата мрежа е произволно инициализирана мрежа, която никога не се актуализира. Последният случай, с τ = 0, описва случая, при който целевият модел е точно копие на онлайн мрежата, което директно води до свито представяне. Другите случаи просто описват търсенето на оптималния параметър τ.
Въпреки това по-късно беше потвърдено, че експоненциалната подвижна средна не е необходима. Можете да имате целевата мрежа като директно копие на онлайн мрежата. Това е, ако предикторът се актуализира по-често или има по-голяма скорост на обучение в сравнение с гръбнака. Но все още осигурява стабилност на обучението, която дори може по някакъв начин да се използва в SimCLR и всъщност повишава неговата производителност.
Добре, дясната таблица показва ефектите от добавянето на отрицателни проби (втори ред), което вреди на производителността (!) и премахването предиктора (трети ред), като по този начин директно изчислява загубата между прогнозираните представяния на онлайн и целевите мрежи.
Въпреки това, всичко това на теория все още не избягва напълно колапса. Това просто го прави „супер трудно“ и „нестабилно“ да стигнете до там.

Но добре, обратно към бизнеса. Почти сме готови.
Вече разбрахме как работи това ново семейство от самоконтролирано обучение. Разгледахме BYOL, който е част от семейството за самодестилация, което използва две невронни мрежи, наричани онлайн и целеви мрежи, които си взаимодействат и се учат една от друга. Голямото предимство на този подход е, че постига страхотна производителност, като същевременно не разчита на отрицателни двойки!

И така, как можем допълнително да подобрим тази идея? Каква технология е превзела всеки домейн на машинното обучение и води до невероятни резултати?

[ПАУЗА]

Правилно. Трансформърс.

Сега най-накрая сме в точката, в която можем да разберем подхода зад тази визуализация!

Ако искате да знаете как работи един от най-новите модерни модели и какви прозрения можем да извлечем от него, вижте следващата публикация! Ще разгледаме известната хартия DINO от Mathilde Caron et. др., от Facebook AI Research!

И ако все още не е готово, не забравяйте да ме последвате, за да не пропуснете качването!

P.S.: Ако харесвате това съдържание и визуализациите, можете също да разгледате моя канал в YouTube, където публикувам подобно съдържание, но с по-чисти анимации!

Всички изображения са взети от хартията BYOL, създадена от автора с изображения, които авторът има права да използва, или от посочения източник.

Коригиране на най-големия проблем на SimCLR — Обяснена хартия BYOL

Как BYOL представи новата идея SOTA за всички съвременни рамки за самоконтролирано обучение.

Архитектурата

Загубата

Резултати и интуиция

Подобни въпроси