Какво представлява алгоритъмът напред-напред?

Многослойното обучение преди това е било извършвано с помощта на фази напред и назад, които са били известни като обратно разпространение. Алгоритъмът Forward-Forward е иновация, която заменя традиционните фази на обратното разпространение напред и назад с две предавания напред. Той е вдъхновен от машините на Boltzmanship и Noise Contrastive Estimation и коригира теглата в мрежата в противоположни посоки чрез добавяне на положителна фаза и премахване на отрицателна фаза.

Защо е важно?

Алгоритъмът Forward-Forward е революционен метод за обучение на дълбоки невронни мрежи, който не разчита на обратно разпространение. Обратното разпространение е доминиращият метод за обучение на невронни мрежи от 80-те години на миналия век, но има няколко ограничения, включително трудността при обучение на дълбоки мрежи и факта, че изисква много изчислителни ресурси. Алгоритъмът Forward-Forward може да предостави алтернатива, която е по-ефективна и по-мащабируема. Възможно е също така да се използва за обучение без надзор.

Как ще се отрази на индустрията за машинно обучение?

Алгоритъмът Forward-Forward има потенциала да повлияе значително на индустрията за машинно обучение, тъй като предоставя нов начин за обучение на дълбоки невронни мрежи. Това може също така да доведе до разработването на по-ефективни и по-гъвкави алгоритми за дълбоко обучение, които могат да се справят с по-големи и по-сложни масиви от данни. Едно от ключовите предимства на алгоритъма Forward-Forward е, че той може да се използва за обучение без надзор, което означава, че може да помогне за намаляване на количеството етикетирани данни, които трябва да бъдат обучени дълбоки невронни мрежи в допълнение към подпомагането с етикетирани недостиг на данни или разходи. При медицински изображения или обработка на естествен език, например, етикетираните данни може да са скъпи или оскъдни.

Възможно е алгоритъмът Forward-Forward да помогне за създаването на по-биологично правдоподобни невронни мрежи. Обратното разпространение често е критикувано, че не е представително за биологията, защото изисква информацията да се предава обратно през мрежата, което не е начинът, по който информацията тече в мозъка. Алгоритъмът напред-напред, от друга страна, работи единствено с крачки напред, което го прави по-съвместим с начина, по който мозъкът обработва информацията.

Алгоритъмът Forward-Forward е обещаваща нова техника за дълбоко обучение, която има потенциала значително да промени индустрията за машинно обучение. Въпреки ранния си етап на развитие, той вече демонстрира впечатляващи резултати на няколко референтни набора от данни и може да предостави алтернатива на обратното разпространение, която е по-ефективна, мащабируема и биологично възможна или дори правдоподобна.

Повече техническа информация.

Алгоритъмът Forward-Forward (FF) е многослойна процедура за обучение, вдъхновена от машините на Болцман и оценката на контраста на шума. Той има за цел да замени традиционните предавания напред и назад на обратното разпространение с две предавания напред, едното за реални данни, а другото за отрицателни данни, с противоположни цели. Алгоритъмът работи, като коригира теглата във всеки слой, за да увеличи качеството на всеки скрит слой за реални данни и да го намали за отрицателни данни.

Функцията на доброта за даден слой се дефинира като сумата от квадратите на активностите на ректифицираните линейни неврони в този слой. Целта на обучението е да направи добротата доста над прагова стойност за реални данни и доста под тази стойност за отрицателни данни. Мрежата има за цел да класифицира правилно входните вектори като положителни или отрицателни данни чрез прилагане на логистичната функция към добротата, минус прагова стойност.

FF има за цел да научи ефективни многослойни представяния, които улавят структурата в данните, и за да направи това, той използва ръчно изработен източник на отрицателни данни като временна патерица. Често срещан начин за използване на контрастно обучение за задача за контролирано обучение е първо да се научите да трансформирате входните вектори в вектори за представяне, без да използвате каквато и да е информация за етикетите, и след това да научите проста линейна трансформация на тези вектори за представяне във вектори от логити, които се използват в softmax за определяне на вероятностно разпределение върху етикети.

За да се създадат отрицателни данни, които имат различни дългосрочни корелации и подобни къси корелации, се създава маска, която съдържа доста големи области от единици и нули. След това се създават хибридни изображения за отрицателни данни чрез събиране на едноцифрено изображение, умножено по маската, и друго цифрово изображение, умножено по обратната страна на маската. Това се прави, като се започне с произволно битово изображение и многократно се замъглява изображението с филтър от формата [1/4, 1/2, 1/4] както в хоризонтална, така и във вертикална посока. След многократно замъгляване, прагът на изображението е 0,5.

FF може да използва напълно свързани слоеве или локални възприемчиви полета (без споделяне на тежестта). След обучение на мрежа с четири скрити слоя от 2000 ReLU всеки за 100 епохи, процентът на грешки при теста е 1,37%, ако векторите на нормализираната активност на последните три скрити слоя се използват като входни данни за softmax, който е обучен да предсказва етикета. Използването на първия скрит слой като част от входа към линейния класификатор влошава ефективността на теста. При използване на локални рецептивни полета е изпробвана само една архитектура. Първият скрит слой използва 4x4 решетка от местоположения със стъпка 6, възприемчиво поле от 10x10 пиксела и 128 канала на всяко място. Вторият скрит слой използва решетка 3x3 с 220 канала във всяка точка на мрежата. Възприемащото поле бяха всички канали в квадрат от 4 съседни точки на мрежата в слоя по-долу. Третият скрит слой използва решетка 2x2 с 512 канала и отново възприемащото поле беше всички канали в квадрат от 4 съседни точки на мрежата в слоя по-долу. Тази архитектура има приблизително 2000 скрити единици на слой.

FF е обещаваща алтернатива на обратното разпространение за обучение на невронни мрежи. Той е в състояние да научи ефективни многослойни представяния, които улавят структурата в данните и могат да се използват за задачи за контролирано обучение. FF е особено ефективен при корелации на дълги разстояния в изображения, които характеризират форми. В бъдеще може да е възможно FF да се разшири до големи невронни мрежи, съдържащи порядъци повече връзки.

Линк за цитиране:

Алгоритъмът напред-напред: Някои предварителни проучвания arXiv:2212.13345[cs.LG]