Това е доклад за проект от клас C204 „Въвеждане на машинно обучение за физическите науки“, предложен през есенното тримесечие на 2021 г. в Калифорнийския университет, Лос Анджелис (UCLA).

Прогнозата за времето играе важна роля в живота ни. Нашите предци също са предвидили тази информация, като са наблюдавали промените в природата, като движението на облаците, звездите и вятъра. Вече сме в състояние да отгатваме времето по света, като се възползваме от широкомащабни техники за числена симулация. Освен това наблюдението от сателити и космически станции ни позволява да извършим онлайн прогноза за такова мащабно поведение на Земята. Тези гореспоменати техники могат до голяма степен да допринесат за предотвратяване на природни бедствия, включително торнадо, тайфуни и урагани.
Въпреки това, все още може да бъде предизвикателство - глобалното затопляне го прави особено главоблъсканица. Както знаете, наскоро се сблъскахме с различни непредсказуеми природни поведения като внезапни дъждове и силна суша. Тази скорошна тенденция предполага изискването за нови методи, които могат разумно да оценят такова хаотично и сложно поведение по онлайн начин.
Ние тук проучваме възможността за използване на машинно обучение за тази цел.

В настоящия доклад ние въвеждаме метод за прогнозиране на временното поведение на глобалната температура на морската повърхност чрез използване на обединение на анализ на главните компоненти и невронни мрежи. Настоящият метод може да предложи качествено предсказване на динамичното поведение на температурата, като извършва изчислението си само в нискоразмерно пространство.
Основният интерес на този проект е съсредоточен върху това дали метеорологичната система с големи измерения може да бъде проследена с минимални разходи по разумен начин чрез капитализиране на техники за контролирано/неконтролирано обучение.

За настоящата демонстрация използваме набора от данни за температурата на морската повърхност на NOAA (https://www.esrl.noaa.gov/psd/), получени от сателитни и корабни наблюдения. Имайте предвид, че този набор от данни се управлява от влиянието на сезонната периодичност. Пространствената разделителна способност на този набор от данни е 360x180 въз основа на решетка с един градус. Има 1914 седмични температурни снимки от 1981 до 2018 г. Използваме 1040 моментни снимки, обхващащи годините от 1981 до 2001 г., като набор от данни за обучение, докато останалите 874 моментни снимки, обхващащи от 2001 до 2018 г., се използват като набор от тестови данни. Размерът на данните е ~130MB, налични на https://drive.google.com/drive/folders/1pVW4epkeHkT2WHZB7Dym5IURcfOP4cXu.

Целта на настоящия доклад е да се въведе модел F за предсказване на температурното поле на времева стъпка t=(n+1)Δt от текущата информация при t=nΔт. Въпреки че настоящият набор от данни може да се разглежда като груби данни при обработката на глобално поле на морската повърхност, степените на свобода 360x180 все още са високи за приложения за машинно обучение. Вместо да обработваме оригиналното измерение, ние тук използваме анализ на главните компоненти (PCA), за да извлечем доминираща информация от данните с голямо измерение. PCA е един от неконтролираните методи за обучение, който ни позволява да извършваме нискоразмерно определяне, докато извличаме представителните латентни променливи от оригиналните данни. Тук вземаме PCA за настоящата температура на морската повърхност T и извличаме четири доминиращи режима, така че,

където T обозначава осредненото за времето температурно поле, a е PCA коефициентите, а Φ е PCA режимите. След като получим времевата еволюция на нискоизмерното представяне a(t), можем също да приближим данните в оригиналното високоизмерно пространство, като вземем вътрешен продукт на коефициент a и режимите Φ.

За да получим времевата еволюция на PCA коефициентите, ние разглеждаме два типа невронни мрежи; 1. многослоен перцептрон (MLP) и 2. дълга краткосрочна памет (LSTM). MLP е една от класическите невронни мрежи (NN) и има напълно свързана структура за извличане на входно-изходна връзка през скритите слоеве. За разлика от това, LSTM, който е един от повтарящите се NN, може да отчете хронологията на данните като ефект на паметта, вграден във функцията, така наречената клетка. По-нататък сравняваме способността на тези два модела да предсказват времевата еволюция на PCA коефициентите.
Обобщавайки по-горе, настоящият метод на PCA-NN базиран сурогат от намален ред може да бъде математически изразен като

където F може да бъде NN, така че MLP или LSTM. Имайте предвид, че четири коефициента се предвиждат с помощта на един модел.

Използвайки както MLP, така и LSTM, ние разглеждаме два случая за методите за прогнозиране;

  1. Оценете предвидимостта на коефициента при t=(n+1)Δt от този при t=nΔt.
  2. Оценете предвидимостта и рекурсивната полезност на коефициента при t=(n+1)Δt от това при t=nΔt.

В допълнение към първия метод за прогнозиране, вторият метод се опитва да предскаже времевата еволюция на коефициентите с рекурсивно използване на модела. С други думи, ние използваме първоначалното измерване на температурата T(0) при първоначалното състояние само във втория метод от полето за въвеждане на следващата стъпка T(1) се предоставя от настоящия модел. Обърнете внимание, че първият случай може да се използва за случай, когато потребителите имат редовен достъп до наблюдението. За разлика от това, вторият случай съответства на случай, когато потребителите искат дългосрочна прогноза без достъп до оригиналните данни, които могат да бъдат засегнати от натрупаната грешка поради рекурсивното използване на NN модела.

Нека първо разгледаме първия случай, такъв че

където k обозначава броя на тестовите моментни снимки на оригиналната моментна снимка a(org). Обърнете внимание отново, че този случай съответства на случай, когато потребителите имат редовен достъп до наблюдението. Както е представено, прогнозирането на PCA коефициентите може да бъде перфектно изпълнено както с MLP, така и с LSTM, което показва, че моделът може точно да предостави решението на следващата времева стъпка, когато дадем оригинално сателитно наблюдение като вход. Ние също използваме грешката на нормата L2 за количествена оценка. Изчислените коефициенти на случай на MLP отчитат грешки от 0,0367 (режим 1), 0,0775 (режим 2), 0,0912 (режим 3) и 0,151 (режим 4). Дори и най-трудната ситуация с режим 4 показва приблизително 15% грешка, което също подкрепя успешното прогнозиране с помощта на настоящия модел. Причината, поради която грешката се увеличава с реда на режимите, вероятно е, че трудността на оценката също нараства с реда. Всъщност, в сравнение с първия до третия режим, които притежават забележимо периодично поведение, режим 4 представя субдоминантни влияния, които могат да бъдат по-дълго периодично поведение. След като имаме изчислените коефициенти, можем също така да визуализираме температурното поле, като го комбинираме със собствени моди, както е представено като „Реконструирано“ на фигурата. Както е показано, реконструкцията е в съответствие с референтните данни, които отчитат грешката L2 във високомерното пространство от 0,0398. Също така потвърждаваме грешката за случай на LSTM като грешки от 0,0393 (режим 1), 0,0751 (режим 2), 0,102 (режим 3) и 0,157 (режим 4). Следователно LSTM не представлява значителна разлика в този конкретен случай.

Ние също така разглеждаме случая на рекурсивно въвеждане, така че като втори случай, такъв, че

където F(k)означава k -times рекурсивно използване на модела за машинно обучение.
Отбележете отново, че този случай съответства на случай, когато потребителите искат да извършат прогноза за дългосрочно поведение.

Нека се съсредоточим върху резултатите, предоставени от MLP. Както е показано, оценените коефициенти (черни точки) показват допълнително различно поведение, освен референтното. Това е вероятно, защото, както очаквахме, грешката се натрупва чрез рекурсивното използване на модела NN. Интересно е, че изчислените коефициенти представят периодичното поведение за всички случаи на режим, което предполага, че MLP може да придобие периодичността на настоящите данни. Грешките L2 на PCA коефициентите са съответно 1,61 (режим 1), 1,63 (режим 2), 1,81 (режим 3) и 1,71 (режим 4). Следователно, въпреки че моделът улавя периодичността, моделът не може да се представи добре от гледна точка на прецизно времево прогнозиране.

За да подобрим предсказуемостта, ние също преминаваме към използването на LSTM. В сравнение със случая на MLP, режими 1 до 3 показват значително подобрение. За отбелязване е, че LSTM може да осигури почти правилна честота и величина за режими от 1 до 3, въпреки настоящата рекурсивна употреба на LSTM.
Това вероятно се дължи на ефекта на паметта на LSTM, който поддържа ефективността на динамичното използване на LSTM . Обърнете внимание, че поради отместванията на оценките L2 грешките на PCA коефициентите отчитат високи стойности като 1,41 (режим 1), 1,45 (режим 2), 1,50 (режим 3) и 1,20 (режим 4), въпреки че те са много по-ниски отколкото в случая MLP. Тъй като има случаи, когато потребителите искат да знаят динамичното поведение на системите приблизително в зависимост от ситуациите, използването на LSTM може да бъде полезно за времевото прогнозиране на данни, които включват големи несигурности във времето.

Изследвахме възможността за методи за машинно обучение за прогнози за времето.
Като пример се разглежда наборът от данни за температурата на морската повърхност на NOAA.
Настоящият модел, базиран на PCA и невронна мрежа, може приблизително да улови динамичното поведение на модални коефициенти, въпреки че ние следваме неговата динамика в латентно пространство с ниски размери.
Въпреки че използвахме PCA като компресор на пространствени измерения, базирана на невронна мрежа ниска дименсионализация, т.е. автоенкодер, може да бъде един от потенциалните кандидати за получаване на по-добро нискоразмерно многообразие по отношение на количеството съдържаща се информация.
ЗАБЕЛЕЖКА: записаният видеоклип за настоящия контекст е достъпен на https://www.youtube.com/watch?v=K23dw2yZglI.