UNet 3+ перепроектировал пропущенные соединения, чтобы принимать полномасштабную информацию, благодаря чему у него гораздо меньше параметров, но при этом производительность значительно выше, чем у двух его предшественников, UNet и UNet++, и даже у некоторых других популярных моделей.

Оглавление

· ⭐️ Интуиция
· ⭐️ Архитектура UNet 3+
Простыми словами…
Модуль, управляемый классификацией (CGM)
Гибридная потеря Функция
· ⭐️ Результаты
· ⭐️Резюме
· 🔥Реализации семейства U-Net
Tensorflow
PyTorch
· Цитаты

Примечание. В этой статье предполагается, что у вас есть базовые знания о UNet и UNet++. Если нет, вы можете ознакомиться с этой статьей.

⭐️ Интуиция

Представленная в 2015 году архитектура U-Net была одной из самых популярных архитектур кодировщика-декодера, используемых для сегментации медицинских изображений.

Тем не менее, было много возможностей для улучшения. Для более эффективного использования семантической информации входных данных и улучшения потока градиента для повышения производительности в 2018 году был разработан UNet++, который представил плотные сверточные блоки между путем кодирования и декодером. путь.

❗️Однако, несмотря на улучшение производительности по сравнению со своим предшественником U-Net, UNet++ также не идеален. В частности, UNet++ не изучил полномасштабную информацию в достаточной степени, а модель слишком «громоздка» (как показано на рис. 1b).

⭐️ Архитектура UNet 3+

Простыми словами…

Итак, чтобы устранить эти недостатки в UNet ++, в 2020 г. Х. Хуанг и др. предложил архитектуру семейства U-Net следующего поколения, UNet 3+ (рис. 1c), которая улучшила модель UNet++,

1) приняв метод глубокого наблюдения и модифицировав его для приема полномасштабной семантической информации
2) изменив схему плотных соединений, которая учитывает оба низкие и высокие уровни детализации карт объектов более эффективно для сегментации.

Предыдущие исследования показали, что карты объектов в разных масштабах (то есть на разных уровнях) используют разные типы информации. Например: карты признаков на более низких уровнях лучше фиксируют пространственную информацию, такую ​​как границы органов, в то время как на более высоких уровнях позиционная информация, такая как относительное положение органов, будет использоваться больше.

Таким образом, переработанные пропущенные соединения UNet 3+ включали меньшие и тот же масштаб карты объектов, созданные декодером, чтобы захватить как «мелкозернистые ” и “крупнозернистые” детали в полном масштабе.

Чтобы наглядно проиллюстрировать концепцию измененного скипового соединения, автор включил график, как показано на рис. 2:

Чтобы получить входные данные для декодера 3-го уровня, сначала добавляются карты объектов из первых трех слоев кодировщика. Однако карта объектов кодировщика 4-го уровня НЕ передается напрямую в декодер 3-го уровня, вместо этого она передается в декодер 4-го уровня. во-первых. То же самое и для 5-го уровня, который является узким местом (поворотным моментом) сети.

Это особая часть переработанного скипового соединения UNet 3+. Таким образом, она использует значительно меньше параметров, однако, поскольку исследуется полномасштабная информация (карты функций от кодировщиков разных уровней), модель имеет даже лучшую производительность, чем UNet + + модель, которая имеет гораздо больше параметров, но недостаточно полно изучила информацию.

Модуль управления классификацией (CGM)

В своей работе авторы также предложили модуль под названием CGM. Цель состояла в том, чтобы уменьшить количество ложноположительных результатов, то есть предсказать объекты, когда объект отсутствует.

Модуль, как показано на рис. 3, попытается определить присутствует ли объект в первую очередь, прежде чем пытаться сегментировать орган.

Таким образом, этот недавно предложенный модуль может успешно снизить количество ложноположительных результатов и может еще больше улучшить основные задачи сегментации, оставив богатую семантическую информацию.

Гибридная функция потерь

Автор также предложил новую составную функцию потерь для дальнейшего использования полномасштабной информации.

Новая функция потерь определяется как сумма фокальных потерь (fl), потерь индекса многомасштабного структурного сходства (ms-ssim) и пересечения по объединению потеря (IoU)(потеря ms-ssim утяжелит нечеткие прогнозы границ органов и, следовательно, улучшит сегментацию границ органов.)

Таким образом, новая предлагаемая функция потерь улучшит сегментацию на уровне пикселей, патчей и карт, захватывая полномасштабную семантическую информацию с четкими границами.

⭐️ Результаты

Затем авторы статьи провели качественное сравнение, используя сети Vgg-16 и ResNet-101 в качестве опорных сетей UNet для UNet, UNet++ и UNet 3+ (показано в таблице 1).

Очевидно, как UNet 3+, с методом глубокого наблюдения или без него, достигла современной производительности (SOTA) на двух самых популярных наборах данных (наборы данных печени и селезенки) с еще меньшим количеством параметров, над двумя своими предшественниками. UNet 3+ действительно является «обновленной версией» UNet++!

Автор также провел количественное сравнение с другими популярными архитектурами и показал превосходную производительность даже по сравнению с лучшими наборами данных по печени и селезенке (показано в таблице 2).

⭐️Резюме

UNet 3+ перерабатывает пропускные соединения, чтобы получать полномасштабную семантическую информацию из входных изображений, и оказалась не только более «точной», но также более быстрой и, следовательно, более эффективной по сравнению со многими популярными сетями сегментации изображений.

🔥Реализации семейства U-Net

Тензорный поток

ПиТорч

Спасибо! ❤️

Цитаты

[1] Z. Zhou, M. Siddiquee, N. Tajbakhsh и J. Liang, UNet++: Вложенная архитектура U-Net для сегментации медицинских изображений (2015), 2015 Computer Vision and Pattern Recognition
[2 ] Х. Хуанг, Л. Лин, Р. Тонг, Х. Ху, К. Чжан, Ю. Ивамото, С. Хан, Ю. Чен и Цзянь Ву, UNet 3+: полномасштабная подключенная сеть UNet для медицинских учреждений. Сегментация изображений» (2020), 2020 Компьютерное зрение и распознавание образов