Газета Здесь!

Ключевое слово

Ансамбль, разнообразие, предвзятость к простоте, распространение за пределы

Абстрактный

Иногда модели на основе градиента могут выбрать более легкий путь во время обучения, сосредоточив внимание на простых, но вводящих в заблуждение функциях — тех, которые проявляются в данных обучения, но не в данных тестирования. Эта проблема усугубляется, когда данные, используемые для тестирования, не соответствуют данным, используемым для обучения.

Автор статьи предложил решение под названием D-BAT (обучение разнообразию за счет несогласия). Проще говоря, D-BAT учит модель вести себя по-другому по сравнению с базовой моделью при работе с тестовыми данными. Это разумный подход, поскольку объединение моделей, изученных по-разному, в тестовых данных обычно приводит к лучшие результаты.

Введение

В этой статье обсуждается новый подход, который решает распространенную проблему обучения на основе градиента, называемую предвзятость простоты. Это когда модели учатся в основном на простых функциях, и хотя это может помочь избежать переобучения путем обобщения, это часто означает, что они упускают важные детали для классификации.

Авторы использовали новую технику под названием D-BAT для обучения разнообразию моделей. Вместо того, чтобы просто сосредотачиваться на простых функциях, модели, обученные D-BAT, рассматривают более сложные. Это приводит к тому, что модели ведут себя по-разному при работе с данными, которые не входят в диапазон, на котором они были обучены, или данными вне распространения (OOD).

Как правило, большинство моделей, страдающих от смещения простоты, имеют низкий уровень неопределенности с данными OOD, поскольку они создают неоднозначные границы, основанные на простых функциях. Но с D-BAT модели могут создавать более сложные границы, что помогает им лучше обрабатывать данные OOD в аспекте неопределенности.

Затем авторы объединили модели, обученные D-BAT, с оригинальными в ансамбле. Это делает области принятия решений в моделях более ясными и расширяет области неопределенности. Ключевой вывод D-BAT заключается в том, что он использует разнообразие для повышения производительности модели на данных OOD или для более четкого определения областей неопределенности. .

Рассмотрим сценарий с двумя красными блоками, расположенными слева, и тремя синими блоками, расположенными справа.

Модель 1 различает эти блоки с помощью простой прямой вертикальной линии.

Напротив, Модель 2 разделяет пространство более сложным образом с помощью горизонтальных линий, тем самым различая две красные горизонтальные области и остальные синие области.

Совокупность модели 1 и модели 2 приводит к выявлению области неопределенности, называемой «белой» зоной. Эта «белая» область представляет собой зону, в которой модели могут испытывать затруднения при четкой классификации объектов.

Предвзятость простоты

Модели склонны обучаться, чтобы иметь более простые границы решений для улучшения нормализации и обобщения. Хотя это может помочь смягчить переоснащение, это может привести к снижению надежности результатов модели.

Пример из C-MNIST иллюстрирует, как работает предвзятость простоты. В задаче дифференциации 0 от 1 модель, как правило, учится на цвете, который легче отличить из-за предвзятости простоты, а не на форме. Следовательно, если в тесте цвета меняются местами, модель делает неверные прогнозы. Это представляет собой ухудшение модели, вызванное предвзятостью простоты.

Алгоритм D-BAT

Давайте рассмотрим, как D-BAT увеличивает разнообразие для эффективной обработки данных Out-Of-Distribution (OOD), как показано на соответствующем рисунке.

«h» обозначается как функция маркировки, полученная из функции потерь. Здесь «h1» представляет собой результат базовой модели, обученной на обучающем наборе. По сравнению с «h_ood» (функция для данных OOD) «h1» значительно отличается друг от друга.

Чтобы уменьшить этот разрыв, модели обучены «распространяться» по-разному для данных OOD по сравнению с «h1». Этот процесс позволяет ансамблю моделей {h1,…,h4} минимизировать расстояние до « h_ood», тем самым повышая их производительность при работе с данными OOD.

Формула для получения «h2», модели, которая должна быть объединена с базовой моделью «h1», выглядит следующим образом: она минимизирует расстояние между «h2» и обучающей меткой в ​​обучающем распределении, а затем минимизирует функцию согласия A(h1 , h2), структурируя его так, чтобы он не соответствовал OOD между h1 и h2.

Функция согласования разработана таким образом, что путем перекрестного умножения результатов «h1» и «h2» внутри журнала значение увеличивается, чем больше различаются результаты между «h1» и «h2». Применяя -log, функция разработана таким образом, что чем ближе результаты «h1» и «h2», тем больше значение.

-› Это означает согласие с h1 и h2

Таким образом, D-BAT вносит разнообразие между моделями, добавляя функцию к функции потерь, которая побуждает модели расходиться во мнениях относительно данных OOD по сравнению с результатами базовой модели. Этот подход повышает надежность и производительность модели для данных Out-Of-Distribution.

Эксперимент

Автор сравнил точность теста по шести наборам данных. Левый столбец представляет сценарии, в которых OOD является тестовыми данными, а правый столбец представляет сценарии, в которых OOD не является тестовыми данными. Они сравнили модели Single Model и Ensemble для каждого набора данных, и во всех наборах данных было отмечено значительное улучшение производительности.

Предполагая, что OOD равен тестовым данным, мы можем заметить, что модель ансамбля, обученная с помощью D-BAT, значительно превосходит Deep Ensemble (базовая модель). Этот результат показывает, что D-BAT работает лучше, чем базовая модель, при работе с данными OOD.

Использование алгоритма D-BAT также позволяет более четко определить области принятия решений, что позволяет более точно рассчитать показатели неопределенности. Все сравнительные модели показывают одинаковую точность в 99 %, но энтропия (мера неопределенности ) варьируется. Чем выше энтропия, тем больше неопределенность. Мы видим, что входы, которые трудно различить, имеют более высокую энтропию. D-BAT показывает более высокую энтропию при работе с неоднозначными входными данными. Эти результаты демонстрируют, что модель D-BAT намного эффективнее прогнозирует неопределенность по сравнению с Deep Ensemble (базовая модель).

Ограничение

Справиться с данными Out-of-Distribution (OOD) непросто. Если данные OOD определены неправильно, производительность модели может пострадать. Кроме того, использование сложных функций не всегда является ответом на повышение производительности. На самом деле, это может повысить риск переобучения. Даже после обучения с использованием метода D-BAT модель может с трудом адаптироваться к новому типу данных OOD из-за снижения ее способности к обобщению.

Заключение

Автор представляет алгоритм D-BAT, который побуждает модель демонстрировать расхождения в данных вне распределения (OOD) при достижении согласия по обучающим данным. Таким образом, алгоритм эффективно мотивирует модель использовать различные функции. Этот алгоритм не только улучшает переносимость модели в данные OOD, но также повышает точность оценок неопределенности.

Ссылка

https://openreview.net/pdf?id=K7CbYQbyYhY