UNet++ Ясно обяснено — По-добра архитектура за сегментиране на изображения

Съдържание

∘ ⭐️ U-Net Recap
∘ ⭐️ UNet++ Innovations
∘ ⭐️ Функция за загуба
∘ ⭐️ Производителност
· Цитати

В тази статия ще ви запознаем с UNet++, по същество надстроена версия на U-Net. Тази статия е предназначена да ви помогне да го разберете интуитивно и задълбочено с възможно най-малко време. Препоръчително е да имате поне много груба представа за това какво е U-Net, но ние все пак ще направим обобщение!

⭐️ U-Net Recap

Въведен през 2015 г., U-Net имаше за цел да изпълнява задачи за сегментиране на изображения специално в областта на медицинските изображения. Името му произлиза от неговата „U-образна“ архитектура.

Архитектурата се състои от контрактиращ път(известен още като път на понижаване на дискретизацията, енкодер), където ширината и височините на картите на характеристиките се свиват, докато каналът се разширява с коефициент 2, докато достигне 1024 (обикновено максималното препоръчително ниво за CNN), тясно място като „повратна точка“ и разширяващ се път(известен още като .път за преобразуване, декодер), където ширините и височините на картите на характеристиките се разширяват до размерите на маската.

⭐️ Иновации на UNet++

„Надграден“ от U-Net, UNet++ по същество добави плътни конволюционни блокове (Фигура 1 в синьо и Фигура 3) и дизайн за задълбочен надзор (Фигура 2 в червено), който гнезди на най-високото ниво на мрежата. Новопредложеният модел изглежда така:

Първата промяна в дизайна е добавен плътен конволюционен блок, Фиг. 2 интуитивно и сбито показва как работи.

В U-Net, картите на характеристиките, генерирани от енкодера, автоматично се предават на декодера на същото ниво (показано в ЧЕРНО на фиг. 3). Въпреки това, в UNet++ това е променено (както е показано на фигура 3 в СИНЬО и ЗЕЛЕНО). За да го разберете, ето обяснението:

Във формулата, показана в горната част на фиг. 3, H е съставната функция на DenseNet, която съчетава пакетно нормализиране, ReLU активиране и намотка 3x3.
Елементите вътре в []са свързани заедно като входове към съставната функция H.
Uе съставната функция на U-Net; по подразбиране, когато използвате собствения гръбнак на U-Net, трябва да очаквате две 3x3 навивки с ReLU активации (показано на Фиг. 1 като структурирано всяко ниво).
Трябва да се отбележи, че въведените плътни блокове в средата приемат не само информацията от предишните „възли“ на същото ниво, но също и „възлите“ на нивото под него (показано на фиг. 2). Това е наистина гъсто свързана мрежа!

Следователно, нововъведените плътни връзки биха помогнали за намаляване на „семантичната празнина между картите на характеристиките на енкодера и декодера“ (фиг. 1), така че моделът може да има по-лесна задача за обучение, тъй като тези карти на характеристиките биха били „по-семантично сходни“. ”

Втората промяна в UNet++ е добавен дизайн за задълбочен надзор (фиг. 4 в червено).

Дълбокият надзор не е толкова труден, колкото изглежда. По същество това помага на модела да работи в два режима:
1) Точен режим (изходите от всички клонове на ниво 0 се осредняват, за да се получи крайният резултат)
2) Бърз режим (не всички клонове са избрани за изходи)

Фигура 5 показва как различните избори в БЪРЗ РЕЖИМ водят до различни модели

⭐️ Функция за загуба

В статията авторът предлага комбинирана функция на загуба на двоична кръстосана ентропия и загуба на зарове, както е показано във Формула 1.

Авторът използва 0,5 тегла за загуба на BCE и 1,0 тегла за загуба на зарове. Забележка: Коефициентът на зара е еквивалентен на F1 резултат. По време на изпълнението се препоръчва да се използва 1 минус коефициента на зарове, когато се използва коефициентът на зарове като загуба. Следователно тази практика, показана в документа, може би подлежи на подобрение.

Освен това загубата на зарове често е трудна за събиране поради нейната неизпъкнала природа. Ето защо е осигурено едно скорошно решение чрез обвиването му в log и cosh функция за „изглаждане на кривата“ (https://arxiv.org/pdf/2006.14822.pdf)

Също така, комбинирането на загуба на BCE със загуба на зарове често води до по-добри резултати.

⭐️ Изпълнение

Авторът е обучил модела на четири различни набора от данни и всички са дали по-добри резултати от U-Net и Wide U-Net моделите. Таблица 1 показва резултата. DS означава задълбочен надзор. Резултатът е показан в резултата IoU (област на припокриване/площ на обединението), което илюстрира колко точен е моделът.

Резултатът показва, че UNet++ наистина се е подобрил в сравнение с предшественика си U-Net.

След това ще ви покажем как работи UNet 3+. Това е подобрена версия на UNet++!

UNet 3+ напълно обяснено — следващо поколение UNet

Благодаря ти! ❤️

Цитати

[1] Z. Zhou, M. Siddiquee, N. Tajbakhsh и J. Liang, UNet++: A Nested U-Net Architecture for Medical Image Segmentation (2015), 2015 г. Компютърно зрение и разпознаване на образи
[2 ]: O. Ronneberger, P. Fischer и T. Brox, U-Net: Конволюционни мрежи за сегментиране на биомедицински изображения (2015), 2015 г. Компютърно зрение и разпознаване на образи