В этом посте мы рассмотрим генеративную модель эволюции температуры океана на основе глубинных потоков, основанную на реальных данных, предоставленных Mercator Ocean. Мы стремимся изучить распределение данных о температуре поверхности моря (ТПМ), включая многомерные зависимости, и сгенерировать потенциальные будущие значения ТПМ с пространственной зависимостью между станциями, в частности, для моделирования экстремальных климатических сценариев в контексте стресс-тестирования и, в более широком смысле, управление климатическими рисками.

Эта модель была частью представления в конкурсе данных GenHack2, в котором мы приняли участие вместе с коллегами из HU Berlin, соорганизаторами Стресс-теста кафедры, управления рисками и финансового управления (Политехническая школа, BNP Paribas) и Mercator Ocean. .

Введение

Изменение климата представляет собой серьезную угрозу для нашей планеты, поскольку повышение температуры, уровня моря и экстремальные погодные явления оказывают разрушительное воздействие на экосистемы и сообщества. Одним из важных аспектов мониторинга и понимания изменения климата является измерение температуры поверхности моря (ТПМ) в океанах. Эти данные помогают ученым понять, как меняются океанские течения и модели циркуляции, что, в свою очередь, может дать важную информацию об общем состоянии планеты и потенциальных последствиях изменения климата.

Более того, аномальные колебания ТПМ представляют собой серьезную угрозу для морской фауны, поскольку повышение температуры поверхности моря может повлиять на выживание и распространение многих видов. Повышение температуры океана может привести к обесцвечиванию кораллов, что может убить целые коралловые рифы и разнообразную морскую жизнь, которая от них зависит. Это также может нарушить сроки размножения и миграции, что приведет к сокращению популяций рыб, морских птиц и других видов. Таким образом, важно отслеживать и прогнозировать температуру поверхности моря в океанах, чтобы лучше понимать проблемы изменения климата и реагировать на них. Прогнозируя изменения температуры с течением времени, ученые могут определить области, в которых виды подвергаются наибольшему риску, и принять меры для их защиты. Например, меры по сохранению, такие как морские охраняемые районы или ограничения на рыболовство в районах, где температура поверхности моря быстро растет, могут помочь защитить уязвимые виды.

Согласно Отчету об оценке Межправительственной группы экспертов по изменению климата (МГЭИК), каждое из последних четырех десятилетий было теплее, чем любое предшествовавшее ему десятилетие с 1850 года. К 2019 году глобальное потепление достигло 1,1 °C.

Настройка проблемы

Нам дают ежедневные измерения на 6 станциях в неизвестных местах с 1981-09-01 по 2007-12-31. Цель состоит в том, чтобы создать распределение SST на этих 6 станциях на следующие 9 лет, по одной выборке в день, с 01 января 2008 г. по 31 декабря 2016 г. Модель принимает гауссовский шум z в качестве входных данных и выводит вектор x, соответствующий ТПМ на 6 станциях в какой-то день в указанном выше интервале:

Это контрастирует, например, с классические авторегрессионные модели временных рядов, где прогнозы являются краткосрочными и детерминированными. Как обычно для генеративных моделей, модель оценивается в соответствии с расстоянием между истинным и смоделированным распределениями выборки, поэтому порядок, в котором генерируются выборки, не имеет значения.

Из данных удалена сезонность. Данные предоставляются в виде файла CSV, где каждая строка соответствует одному дню, а каждый столбец соответствует одной станции. Измерения ТПМ обычно нормализуются по отношению к некоторому эталону (например, по отношению к доиндустриальным уровням). Первый столбец — это дата, а остальные столбцы — измерения ТПМ на каждой станции:

Глядя на среднегодовые значения, мы видим, что ТПМ действительно демонстрирует положительную динамику на всех 6 станциях:

Гистограммы одномерных и двумерных маргиналов плотности, которую мы хотим смоделировать, показаны ниже.

В приведенной ниже таблице, обобщающей температурные корреляции между различными станциями, показано, что температуры между некоторыми станциями более коррелированы, чем между некоторыми другими (возможно, из-за их географической близости).

Модель

Нормализация потоков

Мы строим генеративную модель температуры поверхности моря с нормализацией потоков. Несмотря на то, что они не пользуются такой же популярностью, как другие передовые генеративные модели, сложная форма распределения и низкоразмерная настройка делают нормализующие потоки отличным кандидатом для решения проблемы. Модели нормализующих потоков особенно полезны, когда распределение данных сильно отличается от Гаусса, имеет несколько режимов или имеет сложные корреляции между переменными.

Нормирующие потоки моделируют распределение данных путем преобразования простого базового распределения, такого как распределение по Гауссу, в более сложное. Таким образом, можно легко выполнить выборку и оценить плотность простого распределения, а затем использовать композицию простых обучаемых преобразований для получения выборки и плотности сложного распределения. Таким образом, в отличие от некоторых других моделей поколений, таких как GAN или VAE, преобразования в нормализованных потоках выбираются таким образом, чтобы вероятность можно было вычислить аналитически, поэтому обучение продолжается путем максимизации логарифмического правдоподобия. В нашем случае эти простые преобразования будут параметризованы нейронными сетями (отсюда глубокая модель на основе потока), что позволяет реализовать всю модель в виде нейронной сети и обучать ее обратным распространением.

В частности, обозначим z переменную в скрытом пространстве и x переменную в пространстве данных, и мы рассмотрим биективное обратимое преобразование f, который отображает одно на другое:

Применяя многомерную формулу замены переменной, мы получаем для плотности

Обычный выбор для π — стандартный гауссов, как и в нашем случае. Используя теорему об обратной функции (якобиан обратной функции является обратной якобиану), для якобиана обратной функции выполняется:

Авторегрессионные нормализующие потоки

Парадигма авторегрессии в оценке плотности последовательных данных предполагает, что мы моделируем условное распределение следующего элемента в последовательности, зависящее от предыдущих элементов. По цепному правилу вероятности совместная плотность может быть разложена на произведение одномерных условных выражений:

где D — размерность выходного вектора. Теперь мы моделируем f(z) = x с помощью авторегрессионной модели, где условные операторы представляют собой одномерные гауссианы:

где параметры местоположения и масштаба являются функциями наблюдаемой части x:

Тогда модель f является поэлементным аффинным преобразованием:

Эта авторегрессионная архитектура преобразования гарантирует, что якобиан является треугольным, что приводит к особенно простой форме модуля определителя якобиана обратного преобразования f:

Маскированный авторегрессионный поток

Маскированный авторегрессионный поток (MAF) — это эффективная реализация парадигмы авторегрессионного потока. Он использует маскированный автоэнкодер для оценки распределения (MADE), который представляет собой сеть с прямой связью, позволяющую вычислять параметры авторегрессии μ_i и α_i в один проход вперед. Свойство авторегрессии достигается путем применения бинарной маски к весам сети прямого распространения:

В случае MADE матрицы бинарных масок строятся на основе порядка скрытых единиц, так что элемент матрицы маски равен 1, если порядок целевой скрытой единицы больше или равен порядку исходной скрытой единицы. единица, иначе 0.

Модели стекирования

Теперь вместо того, чтобы рассматривать одно преобразование f, мы объединяем несколько моделей авторегрессии fᵢ в более глубокий поток:

Таким образом, мы имеем

Привлекая снова формулу замены переменной, теорему об обратной функции и формулу определителя обратной функции, получаем:

Повторяем продукт по i, обозначая через μ_ijи α_ij расположение и параметры логарифмической шкалы i-й модели и j-й компоненты, используя формулу определителя Якоби для авторегрессионной модели (2) и переходя к логарифмическому правдоподобию, получаем:

Выбрав для π_0 стандартную гауссиану, как предлагалось ранее, мы получим удобную формулу для логарифмического правдоподобия.

Специальные корректировки

Тенденция, очевидная на рисунке в разделе «Постановка задачи», заставляет нас дополнительно включить модель тренда, которая является линейной во времени моделью и должна учитывать общее повышение температуры океана. Кроме того, мы включаем модель весов выборки, которая может отдавать предпочтение более свежим выборкам, поскольку они лучше предсказывают будущие температуры.

Оценка

Смоделированное распределение будет сравниваться с реальными данными, чтобы оценить, насколько хорошо модель может отразить базовое распределение данных SST. Модель оценивается на основе двух показателей: расстояния между одномерными маргиналами с точки зрения расстояния Андерсона-Дарлинга и абсолютной ошибки Кендалла, которая фиксирует зависимость между разными станциями.

Для вектора ξ мы обозначаем через ξ_i,n порядковую статистику, а n_test — общее количество выборок в тестовом наборе. Мы обозначаем через x выборки смоделированного распределения и через x~ выборки реальных данных.

Одномерные маргиналы: расстояние Андерсона-Дарлинга

Запишем для модели вероятность сгенерированной переменной f(z) = x для конкретной станции s:

Расстояние Андерсона-Дарлинга для каждой станции вычисляется как

Глобальная метрика рассчитывается как среднее значение метрик 6 станций:

Метрика зависимости: Абсолютная ошибка Кендалла

Функция зависимости Кендалла фиксирует структуру зависимости между признаками. Оценка функции зависимости Кендалла основана на выборке псевдонаблюдений.

и тестирование псевдонаблюдений

Затем абсолютная ошибка Кендалла задается как расстояние L1 между этими векторами:

Обучение

Мы реализуем модель в pytorch и используем библиотеку nflows, которая содержит реализацию маскированного авторегрессионного потока. Мы также используем ray и hyperopt для настройки гиперпараметров и mlflow для отслеживания модели.

Мы разделяем тренировочный набор на тренировочный, проверочный и тестовый сплиты. Мы используем оптимизатор Adam со скоростью обучения 0,0001 и выбираем следующие гиперпараметры для MAF:

Метрики проверки достигают экстремума довольно рано в обучении и достигают минимума 16,16 для расстояния Андерсона-Дарлинга после 39 эпох и 0,008 для абсолютной ошибки Кендалла после 7 эпох:

Модель весов выборки в конечном итоге отдала предпочтение более свежим образцам в наборе данных, а модель тренда включала положительную тенденцию для ТПМ на всех станциях, что соответствовало нашим ожиданиям. Теперь мы рассмотрим маргинальные одномерные и двумерные значения смоделированного выборочного распределения:

Если мы сравним маргиналы распределения данных на рисунке в начале статьи, мы увидим, что нормализующий поток смог точно представить сложные нелинейности плотности, точно улавливая как 1D маргиналы, так и зависимость между разными станциями.

Код этой статьи доступен на github.

Рекомендации

  • Жермен, Матье и др. «Сделано: замаскированный автоэнкодер для оценки распределения». Международная конференция по машинному обучению. ПМЛР, 2015.
  • Папамакариос, Джордж, Тео Павлаку и Иэн Мюррей. «Маскированный авторегрессионный поток для оценки плотности». Достижения в области нейронных систем обработки информации 30 (2017).