От панхроматических до мультиспектральных: эффективность обнаружения объектов в зависимости от диапазонов изображений

Авторы Адам Ван Эттен и Ли Кон

Ценность спутниковых изображений зависит от ряда факторов, и эту концепцию мы называем совокупностью спутниковых услуг. В предыдущем посте мы обсуждали трехмерное многообразие, в котором разрешение спутника и частота повторных посещений образуют зависимые оси. В этом посте мы исследуем другое измерение: количество полос изображения.

Изображение обычно состоит из трех полос, состоящих из красного, зеленого и синего (RGB) каналов. Однополосные изображения в оттенках серого (или панхроматические) также распространены. Гораздо реже встречаются мультиспектральные изображения, состоящие более чем из трех полос. Эти дополнительные полосы очень полезны для изучения аэрозолей, сельскохозяйственных культур, береговой линии, типа материала и температуры поверхности (и это лишь некоторые из них) [1]. В следующих разделах мы исследуем влияние различных диапазонов на обнаружение следов здания с использованием данных SpaceNet. Мы исследуем производительность двух алгоритмов, которые были разработаны для оценки произвольного количества полос визуализации: конвейера YOLT, а также сильно модифицированной версии алгоритма MNC.

Мы обнаружили, что использование дополнительных диапазонов асимптот быстро помогает при обнаружении контуров здания, а мультиспектральные данные VNIR не улучшают результатов по сравнению со стандартными изображениями RGB.

1. Данные SpaceNet

Второй набор данных SpaceNet предоставляет спутниковые изображения четырех разных городов (Лас-Вегас, Париж, Шанхай, Хартум) с соответствующими метками GeoJSON для следов зданий (см. Рисунок 1). Изображения состоят из панхроматических 30-сантиметровых изображений GSD в градациях серого, а также панхроматических 30-сантиметровых 3-полосных изображений RGB и 30-сантиметровых панхроматических 8-полосных мультиспектральных изображений VNIR.

2. Алгоритмы обнаружения объектов

YOLT - это конвейер быстрого обнаружения объектов спутниковых изображений, который выводит прогнозы ограничивающей рамки для интересующих объектов (1, 2, 3, 4, 5, 6). В этом посте мы расширили возможности YOLT, включив в них произвольное количество полос визуализации для обучения и вывода.

Многозадачные сетевые каскады (MNC) построены поверх Faster-RCNN и выводят полигональные прогнозы, а не ограничивающие рамки. По этой причине теоретически этот алгоритм должен лучше подходить для обнаружения следов здания, чем YOLT, как обсуждалось в нашем предыдущем посте. Как и в случае с YOLT, алгоритм MNC был улучшен для обработки данных мультиспектральных изображений.

Математика нейронных сетей, обратного распространения и стохастического градиентного спуска безразлична к количеству полос визуализации. Тем не менее, переход от 3-полосных изображений к мультиспектральным на практике оказывается сложной задачей, поскольку большинство библиотек компьютерного зрения построены только для обработки 3-полосных изображений (или, возможно, 4-полосных, если четвертая полоса является слоем прозрачности). Поэтому включение дополнительных полос визуализации в рамки глубокого обучения требует определенных инженерных усилий. Еще одна сложность заключается в том, что предварительно обученные модели больше не могут использоваться, поскольку общедоступные предварительно обученные модели почти полностью обучаются на трехканальных изображениях RGB.

3. Показатели обучения и оценки модели

Мы обучаем отдельную модель для каждого из четырех городов и каждого типа изображения (1-полосная шкала серого, 3-полосная RGB и 8-полосная мультиспектральная). Этот процесс дает 24 уникальных модели между двумя алгоритмами, которые мы оцениваем на тестовом наборе данных SpaceNet. На обучение каждой модели уходит 2–4 дня, в зависимости от размера обучающего корпуса. Прогнозы оцениваются с помощью балла F1, который представляет собой гармоническое среднее значение точности и полноты и варьируется от 0,0 (все прогнозы ошибочны) до 1,0 (все прогнозы верны). Мы определяем истинно положительный результат как любой прогноз с индексом Жаккара (также известный как пересечение по объединению или долговая расписка) 0,5 или больше; следовательно, прогноз не обязательно должен быть точно согласован с площадью здания, чтобы считаться успешным.

3. Полосы ошибок при загрузке

Для каждого города мы используем повторную выборку тестового набора данных с помощью начальной загрузки, чтобы оценить планки ошибок. Бутстрапирование - это способ оценки статистических параметров путем повторной выборки данных с заменой. Как и другие непараметрические статистические методы, бутстрэппинг не делает предположений о распределении выборки (например, нормально ли она распределена и, следовательно, может быть охарактеризована такими параметрами, как среднее значение и дисперсия). Вместо этого за бутстреппингом стоит допущение, что распределение выборки является хорошим приближением к распределению совокупности.

Для каждого города мы вычисляем планки ошибок для оценок YOLT и MNC F1 с помощью начальной загрузки следующим образом. Мы передискретизируем с заменой N тестовых изображений, где N - общее количество изображений в наборе тестовых изображений. Затем мы вычисляем оценку F1 для загруженного образца. Мы делаем это в общей сложности 10 000 раз, чтобы получить 10 000 начальных оценок F1; среднее значение и дисперсия этого массива дают доверительные интервалы для наших оценок F1.

4. Результаты

Мы вычисляем и визуализируем результаты с помощью модифицированной версии SpaceNet Visualizer, измененной, чтобы возвращать оценки для каждого изображения и использовать следующую цветовую схему: красный = ложноположительный прогноз, желтый = основная истина для ложноотрицательного результата, зеленый = истинный положительное предсказание, синий = основная истина для истинно положительного. На рисунках 2 и 3 показаны агрегированные результаты для каждой комбинации города и диапазона.

Как видно из рисунков 2 и 3, ни одна из моделей не может использовать дополнительную информацию в дополнительных пяти мультиспектральных диапазонах, а оценки 8-полосного мультиспектрального F1 обычно находятся в пределах ошибок результатов 3-полосного RGB. MNC страдает в области оттенков серого, хотя YOLT дает почти такой же результат с оттенками серого, как RGB или мультиспектральный. Лас-Вегас - самый простой город, так как большинство зданий представляют собой хорошо разделенные дома на одну семью. С Парижем и Шанхаем несколько сложнее, с более крупными жилыми комплексами и промышленными районами. Хартум сложен из-за низкого контраста между зданиями и фоном, а также из-за множества очень маленьких построек. На рисунках 4 и 5 ниже показано, как разные модели и типы изображений сравниваются друг с другом.

Внимательное изучение рисунков 4 и 5 показывает некоторые преимущества каждого алгоритма. Прогнозы YOLT обычно имеют более высокий балл F1, и оценки устойчивы к типу изображения (изображения в оттенках серого дают сопоставимые результаты с 3-полосными или 8-полосными изображениями). Прогнозы MNC чувствительны к изображениям в оттенках серого и имеют немного более низкий общий балл F1. И все же использование предсказаний многоугольника вместо ограничивающих рамок дает более точные предсказания; истинно положительные прогнозы для MNC имеют значительно более высокий индекс Жаккара, чем прогнозы для YOLT.

5. Выводы

В этом посте мы продемонстрировали возможность приема мультиспектральных данных в две структуры обнаружения объектов сверточной нейронной сети: YOLT и MNC. Хотя инженерные задачи по адаптации этих структур были нетривиальными, мы не обнаружили повышения производительности при использовании мультиспектральных данных VNIR по сравнению со стандартными трехполосными изображениями RGB для обнаружения следов зданий. Для алгоритма MNC существует значительный выигрыш при переходе от полутоновых 1-полосных изображений к 3-полосным или 8-полосным мультиспектральным изображениям RGB, хотя результаты YOLT устойчивы к типу изображения. Прогнозы ограничивающей рамки YOLT адекватны для определения местоположения здания и приблизительной оценки площади здания, хотя истинно положительные предсказания для MNC имеют значительно более высокий индекс Жаккара, чем прогнозы для YOLT.

Есть много сценариев, в которых полезны мультиспектральные данные VNIR (например: растительный покров, тип строительного материала и т. Д.). Однако выясняется, что обнаружение следов здания с помощью спутниковых снимков не относится к таким сценариям. Мы с нетерпением ждем возможности применения наших алгоритмов обнаружения мультиспектральных объектов для изучения дополнительных типов объектов или схем маркировки (например, «дом», «ферма», «заправочная станция» вместо просто «здание»), которые поясняют полезность мультиспектральных изображений в объекте. область обнаружения.

* Этот пост является результатом исследования Адама Ван Эттена и Ли Кона.

  • Спасибо lporter за полезные комментарии.

Дополнение от 29 мая 2018 г. См. этот пост для получения информации о бумаге и коде.