Тази публикация в блога е насочена към хора, които имат опит с машинно обучение и искат да получат по-добра интуиция за различните обективни функции, използвани за обучение на невронни мрежи.

Въведение

Причината, поради която реших да напиша тази публикация в блога, е три:

  • Публикациите в блогове често обясняват методи за оптимизация като стохастичен градиентен низход или негови „варианти“, но малко време се отделя за обяснение как се конструират обективните функции за невронни мрежи. Защо средната квадратична грешка (MSE) и логаритмичната загуба на кръстосана ентропия се използват като обективни функции за респ. регресия и класификация? Защо добавянето на термин за регулиране има смисъл? Общата идея е, че чрез изследване на обективни функции човек може да научи защо невронните мрежи работят по начина, по който работят или защо се провалят в други случаи.

  • Невронните мрежи имат репутацията на предоставящи лоши оценки на вероятността и страдат от „съпернически примери“. Накратко: невронните мрежи често са много уверени, дори когато грешат. Това може да е проблем, когато се използват в сценарии от реалния живот (напр. самоуправляващи се автомобили). Самоуправляващата се кола трябва да бъде сигурна, когато взема решения при 90 мили в час. Ако внедрим канали за дълбоко обучение, трябва да сме наясно с техните силни и слаби страни.
  • Винаги съм се чудел как невронните мрежи могат да бъдат обяснени от вероятностна гледна точка и как се вписват в по-широката рамка на моделите за машинно обучение. Хората са склонни да говорят за мрежовите резултати като вероятности. Има ли връзка между вероятностната интерпретация на невронните мрежи и техните обективни функции?

Основното вдъхновение за тази публикация в блога се основава на работата, която направих върху Bayesian Neural Networks с моя приятел Brian Trippe в Computational and Biological Learning Lab в Cambridge University. Силно препоръчвам на всеки да прочете тезата на Брайън за вариационните изводи в невронните мрежи.

Отказ от отговорност: В Лабораторията за компютърно и биологично обучение байесовите техники за машинно обучение се преподават без извинение като път напред. Като такъв, имайте предвид потенциалните пристрастия в тази публикация в блога (😉).

Контролирано машинно обучение

При проблеми с контролирано машинно обучение често разглеждаме набор от данни D от двойки наблюдения (x, y) и се опитваме да моделираме следното разпределение:

Например в класификацията на изображения x представлява изображение, а y съответния етикет на изображението. p(y|x, θ) представлява вероятността за етикета y, даден на изображението x и модел, дефиниран от параметрите θ.

Моделите, които следват този подход, се наричат ​​дискриминативни модели. В дискриминативни или условни модели параметрите, които определят функцията на условното разпределение на вероятността p(y|x, θ), се извеждат от данните за обучение.

Въз основа на наблюдаваните данни x (входни данни или стойности на характеристики) моделът извежда вероятностно разпределение, което след това се използва за прогнозиране на y(клас или реална стойност). Различните модели на машинно обучение изискват различни параметри за оценка. Както линейни модели (напр. логистична регресия, дефинирана от набор от тегла, равни на броя характеристики), така и нелинейни модели (напр. невронни мрежи, дефинирани от набор от тегла за всеки слой) могат да се използват за приближаване на условните вероятностни разпределения .

За типични проблеми с класификацията наборът от параметри, които могат да се научат, θ се използва за дефиниране на преобразуване от x към „категорично разпределение“ върху различните етикети. Един дискриминационен класификационен модел произвежда N вероятности като изход, като N е равно на броя на класовете. Всеки xпринадлежи към един клас, но несигурността на модела се отразява чрез извеждане на разпределение за класовете. Обикновено при вземане на решение се избира класът с максимална вероятност.

Имайте предвид, че дискриминативните регресионни модели често извеждат само една прогнозирана стойност, вместо разпределение върху всички реални стойности. Това е различно от моделите за дискриминационна класификация, при които е осигурено разпределение за всички възможни класове. Това означава ли, че дискриминационните модели се разпадат за регресия? Не трябва ли резултатът от модела да ни каже кои регресионни стойности са по-вероятни от други?

Въпреки че единственият изход на дискриминативен регресионен модел е подвеждащ, изходът на регресионния модел всъщност се отнася до добре познато вероятностно разпределение, разпределението на Гаус. Както се оказва, изходът от дискриминативен регресионен модел представлява средната стойност на разпределение на Гаус (разпределението на Гаус е напълно определено от средна стойност и стандартно отклонение). С тази информация можете да определите вероятността за всяка реална стойност, дадена на входа x.

Само средната стойност на това разпределение обикновено се моделира, а стандартното отклонение на гаусовата функция или не се моделира, или се избира да бъде постоянно за всички x. В дискриминативни регресионни модели, θ по този начин дефинира преобразуване от x към средната стойност на гаусиана, от която y е взета извадка. Средната стойност почти винаги се избира при вземане на решение. Моделите, които извеждат средна стойност и стандартно отклонение за дадено x, са по-информативни, тъй като моделът може да изрази за кое x е несигурно (чрез увеличаване на стандартното отклонение).

Други вероятностни модели (като процеси на Гаус) вършат значително по-добра работа при моделиране на несигурност в регресионни проблеми, докато дискриминативните регресионни модели са склонни да бъдат прекалено уверени, когато моделират средно и стандартно отклонение едновременно.

Процесът на Гаус е в състояние да определи количествено несигурността чрез изрично моделиране на стандартното отклонение. Единственият недостатък на Gaussian процесите е, че те не се мащабират добре до големи масиви от данни. На изображението по-долу можете да видите, че GP моделът има малки доверителни интервали (определени със стандартното отклонение) около региони с много данни. В региони с малко точки от данни доверителните интервали стават значително по-големи.

Дискриминационен модел се обучава върху набора от данни за обучение, за да се научат свойствата в данните, които представляват клас или реална стойност. Един модел се представя добре, ако е в състояние да присвои висока вероятност на правилния клас проби или средна стойност, която е близка до истинската стойност в тестовия набор от данни.

Връзка с невронни мрежи

Когато невронните мрежи се обучават за задача за класификация или регресия, параметрите на гореспоменатите разпределения (категорично и Гаусово) се моделират с помощта на невронна мрежа.

Това става ясно, когато се опитаме да определим оценката на максималната вероятност (MLE) за параметрите θна невронната мрежа. MLE съответства на намирането на параметрите θ, за които вероятността (или еквивалентната логаритмична вероятност) на данните за влака е максимална. По-конкретно, следният израз е максимизиран:

p(Y | X, θ) представлява вероятността за истинските етикети в данните за влака, когато се определя с модела. Ако p(Y | X, θ) е по-близо до 1, това означава, че моделът е в състояние да определи правилните етикети/средства в набора от влакове. Като се има предвид, че данните за влака (X, Y) се състоят от N двойки наблюдения, вероятността данните за влака могат да бъдат пренаписани като сбор от лог вероятности.

В случай на класификация и регресия, p(y|x, θ), последващата вероятност за единична двойка (x, y), може да бъде пренаписана като категорична и разпределението на Гаус. В случай на оптимизиране на невронни мрежи, целта е да се изместят параметрите по такъв начин, че за набор от входове X да са дадени правилните параметри на вероятностното разпределение Y на изхода (регресионната стойност или клас). Това обикновено се постига чрез градиентно спускане или негови варианти. За да се получи оценка на MLE, целта е по този начин да се оптимизира изходът на модела по отношение на истинския изход:

  • Максимизирането на логаритъма на категорично разпределение съответства на минимизиране на кръстосаната ентропия между приблизителното разпределение и истинското разпределение.
  • Максимизирането на логаритъма на гаусово разпределение съответства на минимизиране на средната квадратна грешка между апроксимираната средна и истинската средна стойност.

По този начин изразът в предишното изображение може да бъде пренаписан и води съответно до загуба на кръстосана ентропия и средна квадратна грешка, обективните функции за невронни мрежи за класификационна регресия.

Нелинейната функция, която невронната мрежа се научава да преминава от вход към вероятности или средства, е трудна за тълкуване в сравнение с по-традиционните вероятностни модели. Въпреки че това е значителен недостатък на невронните мрежи, обхватът на сложните функции, които невронната мрежа може да моделира, също носи значителни предимства. Въз основа на извеждането в този раздел е ясно, че целевите функции за невронни мрежи, които възникват при определяне на MLE на параметрите, могат да бъдат интерпретирани вероятностно.

Интересна интерпретация на невронните мрежи е тяхната връзка с обобщени линейни модели (линейна регресия, логистична регресия, …). Вместо да вземе линейна комбинация от функции (както се прави в GLM), невронната мрежа създава силно нелинейна комбинация от характеристики.

Максимално-а-постериори

Но ако невронните мрежи могат да се тълкуват като вероятностни модели, защо те предоставят лоши оценки на вероятността и страдат от противопоставящи се примери? Защо им трябват толкова много данни?

Обичам да мисля за различни модели (логистична регресия, невронни мрежи,...) като търсещи добри апроксиматори на функции в различни пространства за търсене. Въпреки че наличието на изключително голямо пространство за търсене означава, че имате много гъвкавост при моделиране на последващата вероятност, това също си има цена. Невронните мрежи например са доказали, че са универсални апроксиматори на функции. Това означава, че с достатъчно параметри те могат да апроксимират всяка функция (страхотно!). Въпреки това, за да се гарантира, че функцията е добре калибрирана в цялото пространство от данни, са необходими експоненциално големи набори от данни (скъпо!).

Важно е да знаете, че стандартната невронна мрежа обикновено се оптимизира с помощта на MLE. Оптимизацията, използваща MLE, има тенденция да прекалява с данните за влака и са необходими много данни, за да се получат прилични резултати. Целта на машинното обучение не е да се намери модел, който обяснява добре данните за обучението. По-скоро се опитвате да намерите модел, който обобщава добре невидими данни и не е сигурен за данни, които са значително различни от данните за влака.

Използването на максимално апостериорния (MAP) подход е валидна алтернатива, която често се изследва, когато вероятностният модел страда от прекомерно монтиране. И така, на какво отговаря MAP в контекста на невронните мрежи? Какво влияние има върху целевата функция?

Подобно на MLE, MAP може също да бъде пренаписан като целева функция в контекста на невронните мрежи. По същество с MAP вие увеличавате максимално вероятността за набор от параметри θ, дадени на данните, като същевременно приемате предварително разпределение на θ :

При MLE се взема предвид само първият елемент от формулата (колко добре моделът обяснява данните за влака). При MAP също така е важно моделът да отговаря на предварителните предположения (колко добре θ отговаря на предишните), за да се намали пренастройването.

Поставянето на Gaussian prior с 0 средна стойност на θсъответства на L2 регуляризация, добавена към целта (осигуряване на много малки тегла), докатопоставянето на Laplacian prior наθ съответства на L1 регулиране, добавено към целта (осигуряване на много тегла със стойност 0).

Пълен байесов подход

И в случая на MLE и MAP се използва един модел (с един набор от параметри). Особено за сложни данни, като например изображения, не е изключено определени региони в пространството на данните да не са добре покрити. Резултатът от модела в тези региони зависи от произволната инициализация на модела и процедурата за обучение, което води до лоши оценки на вероятността за точки в непокрити сегменти на пространството от данни.

Въпреки че MAP гарантира, че моделът не прекалява твърде много в тези региони, той все още води до модели, които са твърде уверени. При пълен байесов подход това се разрешава чрез осредняване на множество модели, което води до по-добри оценки на несигурността. Вместо единичен набор от параметри, целта е да се моделира разпределение на параметрите. Ако всички модели (различни настройки на параметри) предоставят различни оценки в непокрити региони, това показва голяма несигурност в този регион. Чрез осредняване на тези модели, крайният резултат е модел, който е несигурен в тези региони. Точно това искаме!

В следващата публикация в блога ще обсъдя Bayesian Neural Networks и как те се опитват да решат гореспоменатите проблеми на традиционните невронни мрежи. Байесовите невронни мрежи (BNN) все още са работа на активни изследвания и няма ясен печеливш подход при обучението им.

Горещо препоръчвам публикацията в блога на Yarin Gal относно Несигурността в дълбокото обучение!