Спрете да отговаряте, като се позовавате на централната гранична теорема

Общото за всички научни теории е амбициятада се изведат наблюдаеми величини, като се започне от някакъв абстрактен модел. Обикновено се приема, че параметритена теорията са известни, например въз основа на първи принципи, директно измерване или нещо по-сложно като съображения за симетрия. От друга страна, в ерата на Големите данни нарастващият интерес се отделя на обратния път от наблюдението към оценката на параметрите. При такава обратна операция безпрецедентните възможности за съхранение и изчисления позволяват на учените по данни - работещи във все по-голям брой индустрии - да изследват огромен регион от параметри и евентуално (и се надяваме) да намерят „правилните“, свързани с математическо описание на някои явления от техния интерес, било то (само да спомена някои доста известни примери) прогнозиране на цените на жилищата, откриване на измами и т.н.

Въпреки това, без значение колко мощен е арсеналът на специалиста по данни, работата с твърде големи данни – както от количествена (много много примери), така и от качествена (голямо информационно съдържание) гледна точка – през повечето време е истинско предизвикателство. От една страна, изследването на цялата вселена от възможни параметри на практика е невъзможна задача; от друга страна, докато разработването на процедури за общи типове данни е желателно, много алгоритми се изграждат, като се правят някои допускания за входните данни. В това отношение разпределението на Гаус (GD) заема централно място в машинното обучение. Gaussian Naive Bayes, Linear и Quadratic дискриминантен анализ са примери за алгоритми, които приемат, че данните следват GD.

Повсеместното разпространение на GD често се оправдава от гледна точка на централната гранична теорема, която гласи, че (в ограничението на големи числа N) сумата от случайни променливи следва GD. Например, нека хвърлим четири зара, получавайки 3, 1, 4, 4. Резултатите са 12 и ние го отбелязваме. Повтаряме експеримента втори път, получавайки общ сбор от 18. Ако повторим експеримента N››1пъти, ще получим камбана на Гаус, описваща колко пъти е наблюдавано определено число между 4 (минимална сума) и 24 (максимална сума). Едно просто изчисление ще покаже, че камбаната е центрирана около стойността 3,5*4= 14 [имайте предвид, че всъщност 3,5 е очакваната стойност за едно хвърляне на зара].
Сега, ако сте абстрактен математик, почти съм сигурен, че сте повече от доволен от централната гранична теорема, която оправдава съществуването на привилегирован обект като GD. Въпреки това откривам, че централната интуиция, базирана на ограничение, макар да е сравнително лесен начин за визуализиране на това как да се изгради нормално разпределена случайна променлива, не е напълно задоволителна за изясняване на защоПриродатазапази такова специално място за GD.

Има ли някакъв друг начин да увенчаем нормалното разпределение като царица на функциите за разпределение на вероятностите (PDF)? Да, и всъщност има много. По-долу ще се съсредоточа върху един от тях и ще ви обясня как се появява GD, използвайки много фундаментална физическа концепция: ентропията. В тази публикация (част 1) ще представим основните понятия, като разгледаме най-простия унифициран PDF файл,показвайки, че той е този, който максимизира ентропията на система като такава. Във втората публикация (Част 2, която скоро ще бъде публикувана) ще насочим вниманието си към GD и ще видим, че този клас PDF файловемаксимизира ентропията на разпределенията, описващи системи/процеси, чието средно и стандартно отклонение са известни.

Разбиране на понятието ентропия

Концепцията за ентропия намира своя произход в теорията на термодинамиката, където за първи път е дефинирана в контекста на цикъла на Карно. Въпреки това, дискусията по този конкретен аспект е далеч извън обхвата на тази статия. Единственото нещо, което трябва да знаем, за да продължим тук, е следното твърдение (2-ри закон на термодинамиката):

В изолирани системи (т.е. предполага се, че не обменят енергия/маса с други системи), общата ентропия никога не намалява с времето.

Това означава, че с изключение на определен клас системи (т.е. обратими във времето) - свързани с постоянна ентропия във времето, природата ще позволи на системите да се развиват по такъв начин, че тяхната ентропия да бъде максимална. Всички изпитваме този принцип в ежедневието си. Нека говоря за един пример; отнема малко практика, но винаги можете да получите хубав джин и тоник, като започнете от бутилка джин и една тонизираща вода (и може би резен лимон, малко черен пипер и т.н.). Въпреки това трудно можете да обърнете операцията. Причината зад този факт е, че ентропията на системата джин + тоник вода + чаша (+лед + лимон +...) ще намалее. С други думи, можем да преминем от подредено състояние към по-разхвърляно, а не обратното. Природата, очевидно, обича да е разхвърляно!

За да разберем по-технически какво е ентропията, можем да помислим за частиците от тонизираща вода и джин (както всички знаем, те са основни елементи в периодичната таблица…), смесващи се, за да образуват коктейла по отношение на топки и кутии. На много високо ниво такава гледна точка е гледна точка на статистическата механика и наистина има дълбока връзка между тази област и термодинамиката.

Нека си представим нашата чаша, съставена от осем кутии — ще ги маркирам от 1 до 8 по посока на часовниковата стрелка, вижте фигурата — и нашите бутилки за вода с джин и тоник, съдържащи по 4 частици. Можем да подредим топките в кутиите както желаем, с единственото ограничение, че броят на частиците джин и TW трябва да се запази,което означава, че имаме общо 8 частици преди и след изливането съдържанието на бутилките в чашата. Вземете например конфигурацията на фигурата по-долу

Имаме 1 частица вода джин и 1 тоник в кутия 1, няма частици в кутия 2 и т.н. Тази конфигурация съответства на „функцията за разпределение на водата джин и тоник“ в диаграмата по-долу. Това обаче е само една от всички възможни конфигурации на частици и свързаните с тях функции за разпределение на водата в джин и тоник! Други възможни конфигурации са показани на Фиг. 4 по-долу

Коя конфигурация обаче е по-вероятно да наблюдаваме? Не мисля, че нещо трябва да се обяснява, за да ви убеди, че добре поддържаният джин и тоник ще има правилно смесени частици вода от джин и тоник. След добро разклащане нашата интуиция и очакване ще съответстват на нещо като това по-долу

Това означава, че в един добър коктейл функцията за разпределение на вода в джин и тоник евъзможно най-равномерно. Причината за този факт може да се разбере от гледна точка на възможните конфигурации, съответстващи на тази конкретна разпределителна функция. За да го направим по-просто, нека помислим само за две кутии и две частици (от каквото и вещество да мислите). Простият пример на фиг. 6 по-долу показва, че колкото равномерно е разпределението, толкова по-голям е броят на възможните конфигурации за реализиране на това разпределение. На свой ред, колкото по-високи са наличните конфигурации, толкова по-объркана е системата и толкова по-голяма е ентропията.

Следователно, функцията за равномерно разпределение е тази, която максимизира ентропията,включително тази на нашия джин и тоник. По-технически погледнато, функцията за равномерно разпределение е тази, свързана с възможно най-големия брой микросъстояния. По-изчерпателното обяснение на това какво означава това също е извън обхвата на тази публикация, но ще се радвам да разкажа по-подробно с всеки, който иска да знае повече (просто коментирайте по-долу)!

Досега сме напреднали, за да разберем динамиката на нашия процес на приготвяне на коктейли по по-технически начин, по отношение на ентропията и, което е по-важно, по отношение на разпределителните функции. Все още ни липсва математически превод (и демонстрация) на идеите, илюстрирани по-горе. Това е, което ще направим в следващия параграф. Преди да продължи, читателят трябва да има предвид само една точка: единственото предположение, което използвахме, е, че броят на водите от джин и тоник се запазва (т.е. нито се унищожават, нито се създават), докато се прави коктейлът (същото за по-простия 2 кутии/2 топки свят). Това е броят на частиците във всички кутии, сборът на 8 в нашия пример

Ако разделим двете страни на последното уравнение на 8, дефинирайки p_i = n_i/8, (нотацията _iуказва долен индекс, както в следното уравнение), намираме някакъв вид уравнение, което трябва да изглежда познато на всеки, който някога се е занимавал с PDF файлове:

Сумата от новодефинираните вероятности за заемане на кутия pе 1. Това оправдава идеята за (вероятност) разпределителна функция, въведена по-горе. С други думи, това, което просто казваме, е, че запазването на частиците може да се разглежда като запазване на някои PDF.

Предупреждение: Тук идва математиката!

Нашата цел тук е формално да изведем функция на разпределение чрез максимизиране на ентропията на системата, като се има предвид ограничението, че броят на частиците се запазва - което, както току-що научихме, е равносилно на запазване на вероятността. Това е най-простото предположение, което можем да направим, когато нямаме познания за системата, освен факта, че нейните различни конфигурации са описани от функция на разпределение, която като такава изпълнява втората част на уравнение. 2. За да обобщим и опростим изчисленията, ние работим в непрекъснат случай, замествайки сумите с интеграли върху целия обем на стъклото - което би било точно в границата на стъкло с безкраен брой кутии

Имайки функция на разпределение, ентропията Sсвързана с нея се дава от формулата за ентропия на Гибс:

Ние дефинираме друг функционал (т.е. функция на функция), който е просто интелигентно разширение на ентропията, въведена по-горе. Разширението е интелигентно, защото въвежда допълнителен член с множител на Лагранж (LM) λ, който кодира факта, че уравнението 2 трябва да се спазва (заменяме „стъкло“ с по-общо V,указващо всякакъв вид обем):

Не се плашете! Този функционален Jв крайна сметка е просто число... За да го изчислите, се изисква познаване на pи λ. Все още не ги знаем, но всъщност изчисляването на Jне е нашата цел. Това, което ни интересува, всъщност е формата на pтакава, че Jе максимизирано, както и ентропията S. При наличието на множителя на Лагранж това, което наистина търсим, е

Стойността на pкоято максимизира J(и следователно S) с допълнителното ограничение, че pе PDF — т.е. интегрира се до 1

Сега, за да намерите стойността на xкоято минимизира или максимизира обща функция f(x),това, което човек обикновено прави, е да диференцира по отношение на xи решете уравнението df(x)/dx=0. По подобен начин, когато се работи с функционали като този в уравнение 5, може да се дефинира функционална производна

Функцията на разпределение, минимизираща J, тогава е тази, за която уравнение 6 изчезва. Ще предоставя тук резултата от функционалната производна, обръщайки се към тези, които се интересуват от математическите стъпки в моето приложение по-долу. Ние добиваме

от кое

За да разкрием напълно формата на p(x),както е предписано от обичайната LM техника, трябва да решим следното уравнение — производна на Jпо отношение на LM — както добре

Извършвайки такава производна, задавайки я на 0 и заменяйки p(x)с това, което се намира в уравнението. 8 имаме

където използвах факта, че интегралът върху обема е самият обем. Сравнявайки уравнение 8 и уравнение 10, най-накрая намираме

това е PDF, който максимизира ентропията, е единният PDF! Така че открихме, че при липсата на каквато и да е информация за PDF файла, освен факта, че е PDF, „естественият“ и най-малко пристрастен избор е функцията за равномерно разпределение. Този резултат е едновременно невероятен и очевиден! Като не знаете нищо за статистическия процес, не бихте ли приписали естествено еднаква вероятност на всички възможни резултати?

В следващата публикация ще следвам подобни стъпки, за да видя при какви условия функцията на разпределение на Гаус е „избрана“ от природата. Останете на линия!

Приложение: функционална производна

Първо и най-важно, функционал може да се дефинира като линейно картографиране от векторно пространство в неговото поле от скалари. Грубо казано и за да се ограничим до нашите нужди тук, можем да си представим функционал като операция, която взема функция и свързва число към нея. Един от най-простите функционали е интегралът, който приема функция f(x) —дефинирана върху някаква опора V —и връща скалар

Човек може да дефинира производни на Iпо отношение на неговия аргумент f. За да разберем как да направим това, нека разгледаме обикновеното диференциране (тук мислим за функции f: R → Rпреобразуващи от домейни на реални към реални числа). Това изисква да се оцени нарастващата разлика на някаква функция f(x)за много малко увеличение ε. Самата функция f(x)сега е самата операция, а xе неин аргумент. Ние имаме

Последното означава да си зададем въпроса: колко се променя f(x), когато леко променим точката, в която го оценяваме? Можем да формулираме последния въпрос по-общо: как се променя резултатът от картографирането, когато леко променим неговия аргумент? В тази светлина дефиницията на функционална производна е добре поставена: тя изисква да оценим колко Iсе променя, когато извършим малка промяна в самата функция f. Единственото предупреждение е, че трябва да изберем точка в опората на f(x), за да вземем това малко увеличение. В изображението по-долу представяме възможен пример: добавяме малък бит към f(x)в точна точка t. Математически това може да бъде представено чрез използване на делта функция

Нека сега се опитаме да оценим функционалната производна на дефинирания по-горе функционал — интеграла на f

и прости изчисления показват

където сме използвали основното свойство на делта функцията, тоест тя се интегрира до единица, ако нейният аргумент изчезва в областта на интегриране. Това е! Функционалните производни по-горе (Eq.7) са изчислени със същата логика.

Следващата публикация ще последва скоро!

Благодарности: благодаря на Michail Palaiokostas, че прочете първата версия на тази публикация и предложи някои подобрения!