Что такое алгоритм «вперед-вперед»?

Многоуровневое обучение ранее выполнялось с использованием прямой и обратной фаз, которые были известны как обратное распространение. Алгоритм Forward-Forward — это инновация, которая заменяет традиционные прямую и обратную фазы обратного распространения двумя прямыми проходами. Он вдохновлен машинами Boltzmanship и шумовой контрастной оценкой и регулирует веса в сети в противоположных направлениях, добавляя положительную фазу и удаляя отрицательную фазу.

Почему это важно?

Алгоритм «Вперед-вперед» — это революционный метод обучения глубоких нейронных сетей, не основанный на обратном распространении. Обратное распространение было доминирующим методом обучения нейронных сетей с 1980-х годов, но у него есть несколько ограничений, в том числе сложность обучения глубоких сетей и тот факт, что для этого требуется много вычислительных ресурсов. Алгоритм «вперед-вперед» может предоставить более эффективную и масштабируемую альтернативу. Также возможно, что его можно использовать для обучения без учителя.

Как это повлияет на индустрию машинного обучения?

Алгоритм Forward-Forward может существенно повлиять на индустрию машинного обучения, поскольку он предоставляет новый способ обучения глубоких нейронных сетей. Это также может привести к разработке более эффективных и универсальных алгоритмов глубокого обучения, которые могут работать с более крупными и сложными наборами данных. Одно из ключевых преимуществ алгоритма «Вперед-вперед» заключается в том, что его можно использовать для обучения без учителя, а это означает, что он может помочь уменьшить объем помеченных данных, которые необходимо обучить глубоким нейронным сетям, в дополнение к помощи с помеченными. нехватка данных или стоимость. Например, в медицинской визуализации или обработке естественного языка помеченные данные могут быть дорогостоящими или дефицитными.

Возможно, алгоритм «Вперед-вперед» поможет создать более биологически правдоподобные нейронные сети. Обратное распространение часто критикуют за то, что оно не является репрезентативным для биологии, потому что оно требует, чтобы информация передавалась по сети в обратном направлении, а это не то, как информация течет в мозгу. С другой стороны, алгоритм «Вперед-вперед» работает исключительно с шагами вперед, что делает его более совместимым с тем, как мозг обрабатывает информацию.

Алгоритм «Вперед-вперед» — это новый многообещающий метод глубокого обучения, который может значительно изменить индустрию машинного обучения. Несмотря на раннюю стадию разработки, он уже продемонстрировал впечатляющие результаты на нескольких эталонных наборах данных и может предоставить более эффективную, масштабируемую и биологически возможную или даже правдоподобную альтернативу обратному распространению.

Больше технической информации.

Алгоритм Forward-Forward (FF) представляет собой многоуровневую процедуру обучения, вдохновленную машинами Больцмана и оценкой контрастности шума. Он направлен на замену традиционных прямых и обратных проходов обратного распространения двумя прямыми проходами, один для реальных данных, а другой для отрицательных данных, с противоположными целями. Алгоритм работает, регулируя веса в каждом слое, чтобы увеличить качество каждого скрытого слоя для реальных данных и уменьшить его для отрицательных данных.

Функция качества для слоя определяется как сумма квадратов активности выпрямленных линейных нейронов в этом слое. Цель обучения состоит в том, чтобы сделать качество значительно выше порогового значения для реальных данных и значительно ниже этого значения для отрицательных данных. Сеть стремится правильно классифицировать входные векторы как положительные или отрицательные данные, применяя логистическую функцию к качеству минус пороговое значение.

FF стремится изучить эффективные многослойные представления, которые фиксируют структуру данных, и для этого он использует созданный вручную источник отрицательных данных в качестве временной опоры. Обычный способ использования контрастного обучения для задачи обучения с учителем состоит в том, чтобы сначала научиться преобразовывать входные векторы в векторы представления без использования какой-либо информации о метках, а затем научиться простому линейному преобразованию этих векторов представления в векторы используемых логитов. в softmax для определения распределения вероятностей по меткам.

Для создания отрицательных данных, которые имеют разные дальние корреляции и аналогичные ближние корреляции, создается маска, содержащая достаточно большие области единиц и нулей. Затем создаются гибридные изображения для отрицательных данных путем сложения изображения одной цифры, умноженного на маску, и изображения другой цифры, умноженного на обратную маску. Это делается путем запуска со случайного битового изображения и многократного размытия изображения с помощью фильтра формы [1/4, 1/2, 1/4] как в горизонтальном, так и в вертикальном направлениях. После многократного размытия изображение устанавливается на уровне 0,5.

FF может использовать полностью связанные слои или локальные рецептивные поля (без распределения веса). После обучения сети с четырьмя скрытыми слоями по 2000 ReLU в каждом для 100 эпох частота ошибок теста составляет 1,37%, если нормализованные векторы активности последних трех скрытых слоев используются в качестве входных данных для softmax, обученного предсказывать метку. Использование первого скрытого слоя как части входных данных для линейного классификатора ухудшает производительность теста. При использовании локальных рецептивных полей была опробована только одна архитектура. Первый скрытый слой использовал сетку местоположений 4x4 с шагом 6, рецептивное поле 10x10 пикселей и 128 каналов в каждом месте. Второй скрытый слой использовал сетку 3x3 с 220 каналами в каждой точке сетки. Рецептивное поле представляло собой все каналы в квадрате из 4 соседних точек сетки в слое ниже. Третий скрытый слой использовал сетку 2x2 с 512 каналами, и, опять же, рецептивным полем были все каналы в квадрате из 4 соседних точек сетки в слое ниже. Эта архитектура имеет около 2000 скрытых модулей на каждом слое.

FF — многообещающая альтернатива обратному распространению для обучения нейронной сети. Он способен изучать эффективные многоуровневые представления, которые фиксируют структуру данных и могут использоваться для контролируемых задач обучения. FF особенно эффективен для дальних корреляций в изображениях, характеризующих формы. В будущем, возможно, удастся масштабировать FF для больших нейронных сетей, содержащих на несколько порядков больше соединений.

Ссылка на цитату:

Алгоритм «вперед-вперед: некоторые предварительные исследования arXiv:2212.13345[cs.LG]»