Новый подход к локализации аномалий, который создает функции, адаптированные к целевому набору данных, и использует трансферное обучение.

Эта статья является продолжением статей Обзор статьи: Реконструкция путем рисования для обнаружения визуальных аномалий и Обзор статьи GANomaly: Обнаружение аномалии с полууправлением с помощью обучения состязательности. В предыдущих постах я рассказывал об подходах, основанных на реконструкции, которые выявляют аномалии в изображениях. Такие модели, как автоэнкодер и генеративные состязательные сети, можно использовать для обнаружения аномалий в изображениях. Как они работают?

Они кодируют и реконструируют только нормальные изображения во время обучения. При оценке существует гипотеза о том, что эти модели не должны хорошо восстанавливать аномальные изображения, поскольку они не вводились во время обучения, и, следовательно, дефектные изображения должны иметь более высокий показатель аномалии, чем изображения без дефектов. Однако эта задача сложна для сложных наборов данных, и иногда такие подходы могут давать хорошие результаты реконструкции аномальных изображений, что приводит к неудаче при различении аномальных и нормальных изображений.

По этой причине я исследовал другие типы методов обнаружения аномалий и наткнулся на новый подход, который называется Адаптация объектов на основе связанных гиперсфер (CFA). В основе этого подхода лежат две основные идеи:

  • Он использует предварительно обученный CNN для извлечения особенностей патчей.
  • Он использует трансферное обучение, чтобы адаптировать функцию к целевому набору данных, и, следовательно, аномальные функции можно четко отличить от нормальных функций.

В этом посте я собираюсь рассмотреть статью, в которой представлена ​​эта новая модель обнаружения аномалий.

Контур

  1. Требования
  2. Обзор CFA
  3. Настройки эксперимента
  4. Количественные результаты
  5. Качественные результаты

1. Требования

Когда вы читаете статью, всегда есть некоторые концепции, которые считаются само собой разумеющимися и необходимы для глубокого понимания работы. Я рекомендую вам заглянуть в этот раздел, если вы не знаете ни одного из этих терминов:

  • ЛОПАТА
  • Перенос обучения
  • Обнаружение визуальных аномалий

ЛОПАТА

Semantic Pyramid Anomaly Detection (SPADE) — это подход к обнаружению аномалий, который использует предварительно обученные CNN, такие как ResNet-18 и Wide ResNet-50, для извлечения значимых признаков [2]. В отличие от CFA, этот подход использует предварительно обученную CNN в ImageNet без изучения целевого набора данных, который может иметь совершенно другое распределение, чем набор данных, который был передан предварительно обученной CNN.

SPADE состоит из 3 разных этапов для решения задачи обнаружения аномалий:

  1. Предварительно обученная CNN извлекает признаки из целевого набора данных.
  2. На втором этапе KNN используется для извлечения K ближайших нормальных изображений из обучающего набора для каждого тестового изображения. Расстояние рассчитывается с использованием евклидовой метрики между извлеченными признаками, представляющими нормальность из обучающего набора данных, и извлеченными признаками тестового изображения.
  3. Третий этап находит плотное соответствие на уровне пикселей между целевым и нормальным изображениями. Если целевые области изображения не имеют близких совпадений с нормальными изображениями, полученными на втором этапе, они помечаются как аномальные.

Трансферное обучение

Transfer Learning — это область исследований глубокого обучения, ориентированная на применение ранее полученных знаний в одной области для решения другой, но связанной задачи. Например, вы можете использовать предварительно обученную CNN, такую ​​как ResNet, которая ранее была обучена на ImageNet, для классификации изображений по категориям кошек и собак.

Визуальное обнаружение аномалий

Визуальное обнаружение аномалий — важная задача в области машинного обучения, объединяющая компьютерное зрение и обнаружение аномалий [3]. Кроме того, его можно разделить на две разные категории:

  • обнаружение аномалий на уровне изображения только пытается понять, является ли все изображение аномальным или нормальным.
  • обнаружение аномалий на уровне пикселей позволяет обнаружить аномальные области на изображении. По этой причине его часто называют локализацией аномалии.

2. Обзор CFA

Адаптация признаков на основе связанных гиперсфер (CFA) — это подход к локализации аномалий, который сочетает в себе экстракторы признаков с трансферным обучением. Действительно, он использует принципы трансферного обучения для создания более надежных и обобщающих функций, которые позволяют определить, является ли входное изображение целевого набора данных аномальным или нет.

Предыдущие работы, в которых использовались только предварительно обученные CNN без трансферного обучения, такие как SPADE, Padim и PatchCore, с большими наборами данных, такими как ImageNet, показали очень хорошие результаты. Однако это может быть сложно, когда целевой набор данных полностью отличается от ImageNet, и, следовательно, созданные функции в средних слоях смещены. Есть два других основных вклада в этот подход:

  • Предлагается новая функция потерь, основанная на регрессии с мягкими границами, которая ищет гиперсферу с минимальным радиусом для кластеризации нормальных объектов. Таким образом, он позволяет дескриптору исправления извлекать отличительные признаки, и затем можно четко отличить аномальные признаки от нормальных.
  • Масштабируемый банк памяти сжимается независимо от размера целевого набора данных. Это дает три преимущества: снижение риска переоценки нормальности аномальных признаков и достижение эффективности пространственной сложности.

Адаптация функций на основе связанных гиперсфер

Проблема смещения предварительно обученной CNN решается путем объединения функции потерь на основе гиперсферы и банка памяти. Он пытается извлечь кластеризованные признаки φ(pt) с помощью алгоритма K-средних, поскольку нормальные признаки важны для различения аномальных признаков.

где K — количество ближайших соседей, совпадающих с целевыми функциями, а D — метрика расстояния. Таким образом, CFA позволяет адаптировать признаки, оптимизируя параметры целевых признаков φ(pt), чтобы минимизировать потери L_{att} при переносе обучения.

Чтобы избежать переоценки нормальности аномальных признаков, определяют дополнительную потерю. Для решения этой проблемы используются жесткие отрицательные признаки для выполнения сопоставительного наблюдения, что приводит к более дискриминантному φ(pt). Жесткие отрицательные признаки определяются как K+j-й ближайший сосед ct^j точки pt. Потеря L_{rep} контролирует φ() по контрасту, так что гиперсфера, созданная с ct^j в качестве центра, отталкивает pt.

где J — общее количество жестких отрицательных признаков, которые будут использоваться для контрастного наблюдения, а альфа — гиперпараметр, контролирующий баланс между этими двумя потерями, L_{att} и L_{rep}. В результате эти две потери объединяются в одну уникальную потерю:

Сжатие банка памяти

Цель состоит в том, чтобы построить эффективный банк памяти. Сначала строится начальный банк памяти C0 путем применения кластеризации K-средних ко всем функциям, полученным из первых нормальных выборок x0 обучающего набора X. После этого выполняются следующие шаги для обновления банка памяти:

  • Выведите i-ю нормальную выборку и найдите набор ближайших патч-функций из предыдущего банка памяти C_{i-1}
  • i-й банк памяти следующего состояния Ci вычисляется по экспоненциальному скользящему среднему (EMA) Ci^{NN} и C_{i-1}

Окончательный банк памяти C получается путем повторения описанного выше процесса |X| раз для всех нормальных выборок обучающей выборки.

Мы можем заметить, что сложность пространства снижается по сравнению с другими подходами, основанными на экстракторах признаков без трансферного обучения. В частности, он не зависит от размера целевого набора данных |X|.

Функция подсчета очков

Оценка аномалии определяется с помощью минимального расстояния между целевыми признаками φ(pt) и запоминаемыми признаками.

Однако границы между кластерами нормальных признаков нечеткие, и трудно точно отличить аномальные признаки с наивной оценкой аномалии. По этой причине предлагается новая оценочная функция, учитывающая достоверность φ(pt). Чем больше совпадений φ(pt), тем короче расстояние до конкретного запоминаемого признака по сравнению с другими запоминаемыми признаками. Softmin используется для измерения того, насколько ближайший c по сравнению с другим c.

Во время оценки нового подхода CFA мы можем получить карту оценки аномалии, которая представляет собой окончательный результат для локализации аномалии.

3. Настройки эксперимента

В качестве ориентиров для оценки нового подхода рассматриваются два набора данных: наборы данных MVTec AD и RD-MVTec. В то время как MVTec AD представляет собой новый всеобъемлющий промышленный набор данных с 5354 изображениями высокого разрешения, разделенными на 15 категорий, RD-MVTec представляет собой просто копию MVTec AD с невыровненными выборками. Изображения RD-MVTec произвольно поворачиваются в пределах +=10 градусов. После этого преобразования размер образцов изменяется до 256x256 и случайным образом обрезается до 224x224.

Производительность оценивается с использованием площади под кривой оператора приемника (AU-ROC) в качестве метрики. AUCROC на уровне изображения используется для оценки производительности модели при обнаружении аномалий, а AUCROC на уровне пикселей — для производительности при локализации аномалий.

Эксперименты проводились с использованием всех предварительно обученных CNN в ImageNet, где карты признаков извлекались из промежуточных слоев {C2, C3, C4} каждой предварительно обученной CNN. 1x1 CoordConv рассматривается как дескриптор исправления, который обучается в течение 30 эпох.

4. Количественные результаты

В Таблице 1 и Таблице 2 показаны, соответственно, характеристики различных методов локализации аномалий в наборе данных MVTec AD и наборе данных RD-MVTec AD.

  • CFA++ представляет несколько более низкие оценки AUROC на уровне пикселей, чем CFLOW, при рассмотрении всех классов вместе в наборе данных MVTec AD. Но следует отметить, что он получает хорошую производительность с банком памяти, который имеет меньшую пространственную сложность.
  • В наборе данных RD-MVTec AD производительность подходов к локализации аномалий ниже, чем производительность набора данных MVTec AD. В частности, SPADE кажется более разумным подходом к вращению изображений, что резко снижает его оценки AUROC.

В Таблице 3 производительность CFA++ гораздо выше, поскольку визуализируется оценка ROCAUC на уровне изображения для каждого класса в наборе данных MVTec AD. Стоит отметить, что CFA++ превосходит все другие подходы при рассмотрении производительности на уровне класса из-за эффекта адаптации функции к целевому набору данных, в то время как CFLOW имеет более низкую производительность, чем CFA++, при работе с классом за раз.

Таблица 4 позволяет сравнить производительность обнаружения/локализации аномалий в сочетании с предварительно обученной CNN. CFA++ достигает наибольшей производительности при использовании EffiNet-B5 и ResNet18 в качестве средств извлечения признаков.

5. Качественные результаты

Качественные результаты важны для интерпретации, если особенности, полученные с помощью CFA, позволяют отличить нормальные изображения от аномальных изображений. На следующем рисунке показана оценка аномалии элементов заплаты для двух примеров: бутылка с легко определяемым дефектом и кабель с более сложной аномалией.

В оценке аномалии красный цвет представляет собой оценку аномалии. Эта визуализация хочет подчеркнуть различия, когда применяется трансферное обучение или нет к извлеченным функциям:

  • Когда признак получен без переноса обучения, нормальность нормального признака недооценивается и имеет оценку, аналогичную оценке ненормального признака. Затем трудно определить различия между двумя функциями, поскольку граница, основанная на оценке аномалии, неоднозначна и не столь ясна (второй столбец — Смещено).
  • Когда целевые функции получаются после использования трансферного обучения, они хорошо кластеризуются, как видно из третьего столбца на рисунке 1. Однако одной кластеризации недостаточно для точной оценки неопределенных аномальных функций. из тяжелого дела. Функция оценки, предложенная в статье, вычисляет оценку аномалии с учетом определенности. Таким образом, мы можем отличить аномальные признаки от нормальных в тяжелом случае.

Ниже приведены результаты локализации аномалий, которые показывают аномальные области, выявленные с помощью CFA.

Выводы

Надеюсь, вы оценили этот обзор CFA. Как я никогда не устану повторять, обнаружение аномалий — сложная задача, которую необходимо решить, и необходимо иметь обзор этих методов, чтобы понять, какой из них наиболее подходит в данном конкретном контексте.

В прошлой статье я предложил вам взглянуть на документы, объясняющие Skip-GANomaly и AnoGAN. В этом посте я советую вам прочитать статьи о SPADE, PaDiM, CFLOW и FastFlow. Все эти подходы объединяет то, что они используют предварительно обученные CNN для обнаружения и локализации аномалий. Дайте мне знать, если у вас есть другие предложения о чтении, обмен знаниями - лучший способ улучшить. Спасибо за прочтение. Хорошего дня!

Использованная литература:

[1] CFA: адаптация признаков на основе связанных гиперсфер для целевой локализации аномалий, С. Ли, С. Ли и Б. Чеол Сонг, (2022)

[2] Обнаружение аномалий субизображения с помощью соответствия глубоких пирамид, Н. Коэн и Ю. Хошен, (2021)

[3] Обнаружение визуальных аномалий для изображений: систематический обзор, Дж. Ян, Р. Сюй, З. Ци и Ю. Ши, (2022)

Репозиторий GitHub



Вам понравилась моя статья? Стань участником и получай неограниченный доступ к новым публикациям по науке о данных каждый день! Это косвенный способ поддержать меня без каких-либо дополнительных затрат для вас. Если вы уже являетесь участником, подпишитесь, чтобы получать электронные письма всякий раз, когда я публикую новые руководства по науке о данных и Python!