1. Принципно и ефективно трансферно обучение на дълбоки модели чрез невронен колапс (arXiv)

Автор : : Xiao Li, Sheng Liu, Jinxin Zhou, Xinyu Lu, Carlos Fernandez-Granda, Zhihui Zhu, Qing Qu

Резюме: t: Тъй като размерът на модела продължава да расте и достъпът до етикетирани данни за обучение остава ограничен, трансферното обучение се превърна в популярен подход в много научни и инженерни области. Това изследване изследва феномена на невронния колапс (NC) в трансферното обучение за проблеми с класификацията, което се характеризира с характеристиките на последния слой и класификаторите на дълбоки мрежи, които имат нулева променливост в рамките на класа в характеристиките и максимално и еднакво разделени между класовите характеристики . Чрез обектива на NC, в тази работа са открити следните констатации относно трансферното обучение: (i) предотвратяването на колапса на променливостта в рамките на класа до известна степен по време на предварителното обучение на модела върху изходните данни води до по-добра възможност за прехвърляне, тъй като запазва присъщите структури на входните данни по-добре; (ii) получаването на функции с повече NC върху данни надолу по веригата по време на фина настройка води до по-добра точност на теста. Тези резултати осигуряват нова представа за често използваните евристики в предварителното обучение на модела, като проектиране на загуби, увеличаване на данните и проекционни глави, и водят до по-ефективни и принципни методи за фина настройка на големи предварително обучени модели. В сравнение с пълната фина настройка на модела, нашите предложени методи за фина настройка постигат сравнима или дори по-добра производителност, като същевременно намаляват параметрите за фина настройка с най-малко 70%, както и облекчават пренастройването.

2. Пертурбационен анализ на невронния колапс (arXiv)

Автор: Том Тирър, Хаоксианг Хуанг, Джонатан Найлс-Уийд

Резюме: Обучението на дълбоки невронни мрежи за класификация често включва минимизиране на загубата на обучение отвъд нулевата точка на грешка при обучение. В тази фаза на обучение се наблюдава поведение на „невронен колапс“: променливостта на характеристиките (изходите на предпоследния слой) на проби в рамките на класа намалява и средните характеристики на различните класове се доближават до определена стегната структура на рамката. Последните разработки анализират това поведение чрез идеализирани модели на неограничени функции, където всички минимизатори показват точен колапс. Въпреки това, с практически мрежи и набори от данни характеристиките обикновено не достигат точно свиване, например защото дълбоките слоеве не могат произволно да променят междинни характеристики, които далеч не са свити. В тази статия ние предлагаме по-богат модел, който може да улови това явление, като принуди характеристиките да останат в близост до предварително дефинирана матрица на характеристиките (напр. междинни характеристики). Ние изследваме модела в случай на малка близост чрез анализ на смущенията и установяваме резултати, които не могат да бъдат получени от предишните изследвани модели. Например, ние доказваме намаляване на променливостта в рамките на класа на оптимизираните характеристики в сравнение с предварително дефинираните входни характеристики (чрез анализиране на градиентния поток по „централния път“ с минимални предположения), анализираме минимизаторите в режим на почти колапс и предоставят прозрения за ефекта на хиперпараметрите за регулиране върху близостта до колапс. Ние подкрепяме нашата теория с експерименти в практически настройки за дълбоко обучение.