Генеративно моделиране на температурата на морската повърхност с нормализиране на потоците

В тази публикация разглеждаме базирания на дълбок поток генеративен модел на еволюцията на океанската температура, базиран на реални данни, предоставени от Mercator Ocean. Ние се стремим да научим разпределението на данните за температурата на морската повърхност (SST), включително многоизмерни зависимости, и да генерираме потенциални бъдещи стойности на SST с пространствена зависимост между станциите, по-специално за симулиране на екстремни климатични сценарии в контекста на стрес тестове и, по-широко, управление на климатичния риск.

Този модел беше част от подаването в предизвикателството за данни GenHack2, в което участвахме заедно с колеги от HU Берлин, съорганизатори Chair Stress test, Risk management and Financial steering (Ecole polytechnique, BNP Paribas) и Mercator Ocean .

Въведение

Изменението на климата представлява значителна заплаха за нашата планета, като повишаващите се температури, морското равнище и екстремните метеорологични явления имат опустошителни ефекти върху екосистемите и общностите. Един важен аспект от наблюдението и разбирането на изменението на климата е измерването на температурата на морската повърхност (SST) в океаните. Тези данни помагат на учените да разберат как океанските течения и моделите на циркулация се променят, което от своя страна може да предостави важна представа за цялостното здраве на планетата и потенциалните въздействия от изменението на климата.

Освен това необичайните вариации в SST са значителна заплаха за морската дива природа, тъй като повишаващите се температури на морската повърхност могат да повлияят на оцеляването и разпространението на много видове. По-високите температури на океана могат да доведат до избелване на коралите, което може да убие цели коралови рифове и разнообразния морски живот, който зависи от тях. То може също така да наруши времето на размножаване и моделите на миграция, което води до намаляване на популациите на риби, морски птици и други видове. Поради това е от съществено значение да се наблюдава и прогнозира температурата на морската повърхност в океаните, за да се разберат по-добре и да се отговори на предизвикателствата на изменението на климата. Чрез прогнозиране на температурните тенденции във времето учените могат да идентифицират области, където видовете са най-застрашени, и да предприемат действия за защитата им. Например, усилията за опазване като защитени морски зони или ограничения за риболов в райони, където температурите на морската повърхност се повишават бързо, могат да помогнат за защитата на уязвимите видове.

Според Доклада за оценка на Междуправителствения панел по изменение на климата (IPCC), всяко от последните четири десетилетия е било по-топло от всяко предшестващо десетилетие от 1850 г. насам. До 2019 г. глобалното затопляне е достигнало 1,1°C.

Настройка на проблема

Дават ни се ежедневни измервания на 6 станции на неизвестни места от 1981–09–01 до 2007–12–31. Целта е да се генерира разпределението на SST в тези 6 станции за следващите 9 години, по една проба на ден, от 2008–01–01 до 2016–12–31. Моделът приема шума на Гаус z като вход и извежда вектора x, съответстващ на SST на 6 станции в някой ден от горния интервал:

Това контрастира с напр. класически авторегресивни модели на времеви редове, където прогнозите са краткосрочни и детерминистични. Както е обичайно за генеративните модели, моделът се оценява според разстоянието между истинските и моделираните разпределения на извадката, така че редът, в който се генерират извадките, няма значение.

Сезонността се премахва от данните. Данните се предоставят под формата на CSV файл, където всеки ред съответства на един ден, а всяка колона съответства на една станция. Измерванията на SST обикновено се нормализират по отношение на някои еталонни показатели (например спрямо прединдустриалните нива). Първата колона е датата, а останалите колони са SST измерванията на всяка станция:

Като разглеждаме годишните средни стойности, забелязваме, че SST наистина показва положителна тенденция във всичките 6 станции:

Хистограмите на 1D и 2D границите на плътността, която искаме да моделираме, са изобразени по-долу.

Таблицата по-долу, обобщаваща температурните корелации между различните станции, показва, че температурите между някои станции са по-корелирани, отколкото между някои други (може би поради тяхната географска близост).

Модел

Нормализиране на потоците

Изграждаме генериращ модел за температурата на морската повърхност с нормализиращи потоци. Въпреки че не се радват на същата популярност като другите авангардни генеративни модели, сложната форма на разпределението и нискоразмерната настройка правят нормализиращите потоци чудесен кандидат за атака на проблема. Моделите на нормализиращи потоци са особено полезни, когато разпределението на данните е силно различно от Гаус, има множество режими или има сложни корелации между променливите.

Нормализиращите потоци моделират разпределението на данните чрез трансформиране на просто базово разпределение, като например Гаус, в по-сложно. По този начин човек може лесно да вземе проба от и да оцени плътността на простото разпределение и след това да използва композиция от прости трансформации, които могат да се научат, за да получи извадката от и плътността на сложното разпределение. По този начин, за разлика от някои други генерационни модели, като GAN или VAE, трансформациите в нормализираните потоци са избрани така, че вероятността да може да бъде изчислена аналитично, така че обучението протича чрез максимизиране на логаритмичната вероятност. Тези прости трансформации ще бъдат параметризирани в нашия случай от невронни мрежи (следователно deep модел, базиран на потока), което позволява внедряване на целия модел като невронна мрежа и обучение чрез обратно разпространение.

По-конкретно, нека обозначим z променливата в латентното пространство и x променливата в пространството с данни и разглеждаме биективна обратима трансформация f, което преобразува един в друг:

Извиквайки многовариантната формула за промяна на променлива, получаваме за плътността

Често срещан избор за πе стандартният Гаус, какъвто е и в нашия случай. Използвайки теоремата за обратната функция (якобианата на обратната е обратна на якобианата), важи за якобианата на обратната:

Авторегресивни нормализиращи потоци

Парадигмата на авторегресията при оценката на плътността на последователни данни предполага, че моделираме условно разпределение на следващия елемент в последователността в зависимост от предходните елементи. Чрез верижното правило на вероятността, плътността на фугата може да бъде факторизирана в произведение на едномерни условни условия:

където D е размерността на изходния вектор. Сега моделираме f(z) = xс авторегресивен модел, където условните са едномерни гаусиани:

където параметрите за местоположение и мащаб са функции на наблюдаваната част от x:

Тогава моделът fе елементно афинна трансформация:

Тази авторегресивна архитектура на трансформацията гарантира, че якобианът е триъгълен, което води до особено проста форма за модула на детерминантата на якобиана на обратното на трансформацията f:

Маскиран авторегресивен поток

Маскираният авторегресивен поток (MAF) е ефективно прилагане на парадигмата на авторегресивния поток. Той използва маскирания автоматичен енкодер за оценка на разпределението (MADE), който е мрежа за предаване, позволяваща изчисляване на авторегресивните параметри μ_i и α_i в едно подаване напред. Свойството на авторегресия се постига чрез прилагане на двоична маска към теглата на мрежата за предварителна връзка:

В случая на MADE двоичните матрици на маската се конструират въз основа на подреждането на скритите единици, така че елементът на матрицата на маската е равен на 1, ако редът на целевата скрита единица е по-голям или равен на реда на скрития източник единица, в противен случай е 0.

Подреждане на модели

Сега, вместо да разглеждаме една единствена трансформация f, ние подреждаме множество авторегресивни модели fᵢ в по-дълбок поток:

Имаме по този начин

Извиквайки отново формулата за промяна на променливата, теоремата за обратната функция и формулата за детерминантата на обратната, получаваме:

Итериране на продукта върху i, обозначавайки с μ_ijи α_ij местоположението и параметрите в логаритмичен мащаб на i-ти модел и j-ти компонент, използвайки детерминантната формула на Якоби за авторегресивния модел (2) и преминавайки към логаритмичната подобие, получаваме:

Избирайки за π_0 стандартния Гаус, както беше предложено по-рано, получаваме податлива формула за логаритмичната вероятност.

Ad-hoc корекции

Тенденцията, очевидна от фигурата в раздела за настройка на проблема, ни кара да включим допълнително модел на тенденция, който е линеен модел във времето и трябва да отчита общото повишаване на температурата на океана. Освен това включваме модел на теглата на извадката, който може да благоприятства по-новите проби като по-предсказуеми за бъдещите температури.

Оценка

Моделираното разпределение ще бъде сравнено с реалните данни, за да се оцени колко добре моделът може да улови основното разпределение на SST данни. Моделът се оценява въз основа на два показателя: разстояние между едномерни маргинални стойности по отношение на разстоянието Андерсън-Дарлинг и абсолютна грешка на Кендъл, което улавя зависимостта между различните станции.

За вектор ξ, ние означаваме с ξ_i,n статистиката на реда, а n_test е общият брой проби в тестовия набор. Означаваме с x извадките от моделираното разпределение и с x~ извадките от реалните данни.

Едномерни маргинали: разстояние Андерсън-Дарлинг

Записваме за моделната вероятност на генерирана променлива f(z) = x за конкретна станция s:

Разстоянието Андерсън-Дарлинг за всяка станция се изчислява като

Глобалният показател се изчислява като средна стойност от показателите на 6 станции:

Показател на зависимостта: Абсолютна грешка на Kendall

Функцията за зависимост на Kendall улавя структурата на зависимостта между характеристиките. Оценката на функцията на зависимост на Kendall се основава на псевдонаблюденията на извадката

и псевдонаблюденията за тестване

След това абсолютната грешка на Кендъл се дава като разстоянието L1 между тези вектори:

обучение

Ние имплементираме модела в pytorch и използваме библиотеката nflows, която съдържа имплементацията на маскирания авторегресивен поток. Ние също използваме ray и hyperopt за настройка на хиперпараметри и mlflow за проследяване на модела.

Ние подразделяме набора за обучение на раздели за обучение, валидиране и тест. Използваме оптимизатора на Adam със скорост на обучение 0,0001 и избираме следните хиперпараметри за MAF:

Показателите за валидиране се екстремизират доста рано в обучението и достигат минимум 16,16 за разстоянието Андерсън–Дарлинг след 39 епохи и 0,008 за абсолютна грешка на Кендъл след 7 епохи:

Моделът на теглата на пробите в крайна сметка даде предпочитание на по-нови проби в набора от данни, а моделът на тенденциите включи положителна тенденция за SST на всички станции, в съответствие с нашите очаквания. Сега ще разгледаме 1D и 2D маргиналите на моделираното извадково разпределение:

Ако сравним с маргиналите на разпределението на данните на фигурата в началото на статията, можем да видим, че нормализиращият поток е успял да представи точно сложните нелинейности на плътността, като същевременно точно улавя както 1D маргиналите, така и зависимостта между различни станции.

Кодът за тази статия е достъпен в github.

Препратки

Germain, Mathieu и др. „Произведено: Маскиран автоенкодер за оценка на разпределението.“ Международна конференция за машинно обучение. PMLR, 2015 г.
Папамакариос, Джордж, Тео Павлаку и Иън Мъри. „Маскиран авторегресивен поток за оценка на плътността.“ Напредък в системите за обработка на невронна информация 30 (2017).