Почему распределение Гаусса - «естественный» выбор (часть 1)

Прекратите отвечать, используя центральную предельную теорему

Общим для всех научных теорий является стремление получить наблюдаемые величины, исходя из некоторой абстрактной модели. Обычно предполагается, что параметры теории известны, например, на основе первых принципов, прямого измерения или чего-то более сложного, например соображений симметрии. С другой стороны, в эпоху больших данных все больший интерес вызывает обратный путь от наблюдения к оценке параметров. В такой обратной операции беспрецедентные возможности хранения и вычислений позволяют специалистам по данным, работающим во все большем числе отраслей, исследовать обширную область параметров и, возможно (и, надеюсь,) находить «правильные», связанные с математическим описанием некоторых явлений. представляющих их интерес, будь то (просто упомянем некоторые довольно известные примеры) прогнозирование цен на жилье, обнаружение мошенничества и т. д.

Однако каким бы мощным ни был арсенал аналитика данных, работа со слишком большими данными - как с количественной (много примеров), так и с качественной (большой объем информации) точки зрения - в большинстве случаев является настоящей проблемой. С одной стороны, исследование всего множества возможных параметров на практике является невыполнимой задачей; с другой стороны, хотя разработка процедур для общих типов данных желательна, многие алгоритмы строятся с учетом некоторых предположений о входных данных. В этом отношении распределение Гаусса (GD) занимает центральное место в машинном обучении. Гауссовский наивный байесовский, линейный и квадратичный дискриминантный анализ являются примерами алгоритмов, предполагающих, что данные следуют за GD.

Повсеместное распространение GD часто оправдывается центральной предельной теоремой, которая гласит, что (в пределе больших чисел N) сумма случайных величин следует за GD. Например, давайте бросим четыре кубика, получив 3, 1, 4, 4. Сумма результатов равна 12, и мы это принимаем к сведению. Мы повторяем эксперимент во второй раз, получая в общей сложности 18. Если бы мы повторили эксперимент N ›› 1 раз, мы получили бы гауссовский колокол, описывающий сколько раз наблюдалось определенное число от 4 (минимальная сумма) до 24 (максимальная сумма). Простой расчет покажет, что колокол центрируется вокруг значения 3,5 * 4 = 14 [обратите внимание, что на самом деле 3,5 - это ожидаемое значение для одного броска кубика].
Теперь, если вы абстрактный математик, я почти уверен, что вы более чем довольны центральной предельной теоремой, оправдывающей существование привилегированного объекта, такого как GD. Однако я считаю, что центральная интуиция, основанная на пределе, хотя и является относительно простым способом визуализировать, как построить нормально распределенную случайную величину, не полностью удовлетворительна для выяснения почему природы зарезервировал такое особое место для GD.

Есть ли другой способ увенчать нормальное распределение королевой функций распределения вероятностей (PDF)? Да и на самом деле их много. Далее я сосредоточусь на одном из них и объясню вам, как возникает GD, используя очень фундаментальную физическую концепцию: энтропия. В этом посте (часть 1) мы собираемся представить основные концепции, рассматривая простейший унифицированный PDF-файл, показывая, что именно он максимизирует энтропию системы как таковой . Во втором посте (часть 2, который скоро будет опубликован) мы уделим внимание GD и увидим, что этот класс PDF-файлов максимизирует энтропию распределений, описывающих системы / процессы, среднее значение и стандартное отклонение которых известны.

Понимание концепции энтропии

Концепция энтропии берет свое начало в теории термодинамики, где она впервые была определена в контексте цикла Карно. Однако обсуждение этого конкретного аспекта выходит далеко за рамки данной статьи. Единственное, что нам нужно знать, чтобы продолжить здесь, - это следующее утверждение (2-й закон термодинамики):

В изолированных системах (т.е. предполагается, что они не обмениваются энергией / массой с другими системами) полная энтропия никогда не уменьшается со временем.

Это означает, что, за исключением определенного класса систем (т.е. обратимых во времени), связанных с постоянной энтропией во времени, Природа позволит системам развиваться таким образом, чтобы их энтропия была максимальной. Все мы сталкиваемся с этим принципом в повседневной жизни. Позвольте мне рассказать о примере; это требует некоторой практики, но вы всегда можете получить хороший джин-тоник, начав с бутылки джина и одной тонизирующей воды (и, возможно, ломтика лимона, перца и т. д.). Однако отменить операцию вряд ли удастся. Причина этого в том, что энтропия системы джин + тоник вода + стакан (+ лед + лимон +…) уменьшится. Другими словами, мы можем перейти от упорядоченного состояния к более сложному, а не наоборот. Природа, видимо, любит беспорядок!

Чтобы более технически понять, что такое энтропия, мы можем подумать о частицах тоника и джина (как мы все знаем, они являются фундаментальными элементами в периодической таблице ...), смешанных, чтобы сформировать коктейль в виде шаров и коробок. На очень высоком уровне такая точка зрения относится к статистической механике, и действительно существует глубокая связь между этой областью и термодинамикой.

Давайте представим наш стакан, состоящий из восьми коробок - я буду маркировать их от 1 до 8 по часовой стрелке, см. Рисунок - и наших бутылок для воды с джином и тоником, содержащих по 4 частицы каждая. Мы можем расположить шарики в коробках по своему усмотрению, с единственным ограничением, что количество частиц джина и TW должно быть сохранено, что означает, что у нас есть в общей сложности 8 частиц до и после налива. содержимое бутылок в стакан. Возьмем, к примеру, конфигурацию на рисунке ниже.

У нас есть 1 джин и 1 частица тоника в коробке 1, никаких частиц в коробке 2 и т. Д. Эта конфигурация соответствует «функции распределения воды для джина и тоника» в таблице ниже. Однако это лишь одна из всех возможных конфигураций частиц и связанных с ними функций распределения воды с джином и тоником! Другие возможные конфигурации показаны на рисунке 4 ниже.

Однако какую конфигурацию мы чаще наблюдаем? Я не думаю, что нужно что-то объяснять, чтобы убедить вас в том, что в хорошо приготовленном джин-тонике частицы джин-тоника и воды смешаны должным образом. После хорошего встряхивания наша интуиция и ожидания будут соответствовать примерно тому, что показано ниже.

То есть в хорошем коктейле функция распределения воды для джин-тоника максимально однородна. Причину этого факта можно понять с точки зрения возможных конфигураций, соответствующих эта конкретная функция распределения. Чтобы упростить задачу, давайте подумаем только о двух коробках и двух частицах (любой субстанции, о которой вы хотите думать). Простой пример на рис. 6 ниже показывает, что чем равномернее распределение, тем больше количество возможных конфигураций для реализации этого распределения. В свою очередь, чем выше доступные конфигурации, тем грязнее система и больше энтропия.

Следовательно, функция равномерного распределения - это функция, которая максимизирует энтропию, включая энтропию нашего джин-тоника . С технической точки зрения функция равномерного распределения связана с максимально возможным числом микросостояний . Более подробное объяснение того, что это означает, также выходит за рамки этого поста, но я буду счастлив более подробно рассказать всем, кто хочет знать больше (просто прокомментируйте ниже)!

К настоящему времени мы продвинулись в понимании динамики нашего процесса приготовления коктейлей более техническим способом, с точки зрения энтропии и, что более важно, с точки зрения функций распределения. Нам все еще не хватает математического перевода (и демонстрации) идей, проиллюстрированных выше. Этим мы и займемся в следующем абзаце. Прежде чем продолжить, читатель должен иметь в виду только один момент: единственное предположение, которое мы использовали, состоит в том, что количество джин-тонической воды сохраняется (т.е. они не разрушаются и не создаются) при приготовлении коктейля (то же самое для более простого 2 коробки / 2 шара мир). В нашем примере сумма частиц во всех ящиках равна 8.

Если мы разделим обе части последнего уравнения на 8, определив p_i = n_i / 8, (обозначение _i указывает нижний индекс, как в следующем уравнении), мы обнаружим своего рода уравнение, которое должно быть знакомо тому, кто когда-либо имел дело с PDF-файлами:

Сумма вновь определенных вероятностей заполнения ящика p равна 1. Это оправдывает идею (вероятности) функции распределения, представленной выше. Другими словами, мы просто говорим, что сохранение частиц можно рассматривать как сохранение некоторой PDF.

Предупреждение: вот и математика!

Наша цель здесь - формально вывести функцию распределения путем максимизации энтропии системы с учетом ограничения, заключающегося в сохранении числа частиц, что, как мы только что узнали, равносильно сохранению вероятности. Это простейшее предположение, которое мы можем сделать, когда ничего не знаем о системе, за исключением того факта, что ее различные конфигурации описываются функцией распределения, которая как таковая удовлетворяет второй части уравнения. 2. Чтобы обобщить и упростить вычисления, мы работаем в непрерывном случае, заменяя суммы интегралами по всему объему стакана, что было бы точно в пределах стакана с бесконечным числом ящиков.

При наличии функции распределения энтропия S, связанная с ней, задается формулой энтропии Гиббса:

Мы определяем другой функционал (то есть функцию функции), который является просто умным расширением энтропии, представленной выше. Расширение является разумным, поскольку оно вводит дополнительный член с множителем Лагранжа (LM) λ, который кодирует тот факт, что уравнение. 2 (мы заменяем стакан более общим V, обозначающим любой вид объема):

Не бойтесь! Этот функционал J - это просто число… Для его вычисления требуется знание p и λ. Мы их еще не знаем, но вычисление J не является нашей целью. Фактически, нас интересует такая форма p, что J максимизируется, как и энтропия S. При наличии множителя Лагранжа мы действительно ищем

Значение p, которое максимизирует J (и, следовательно, S) с дополнительным ограничением, что p является PDF-файлом, т. Е. Интегрируется с 1

Теперь, чтобы найти значение x, которое минимизирует или максимизирует универсальную функцию f (x), обычно нужно дифференцировать по x и решите уравнение df (x) / dx = 0. Точно так же, имея дело с функционалами, подобными тому, что в уравнении 5, можно определить функциональную производную

Тогда функция распределения, минимизирующая J, является той, для которой уравнение 6 обращается в нуль. Я представлю здесь результат функциональной производной, обращаясь к тем, кто интересуется математическими шагами в моем приложении ниже. Мы получаем

откуда

Чтобы полностью раскрыть форму p (x),, как предписано обычной техникой LM, нам нужно решить следующее уравнение - производную J по LM - также

Выполнение такой производной, установка ее на 0 и замена p (x) на то, что найдено в уравнении. 8 у нас есть

где я использовал тот факт, что интеграл по объему - это сам объем. Сравнивая уравнение 8 и уравнение. 10, мы наконец находим

это PDF, который максимизирует энтропию, является однородным PDF! Итак, мы обнаружили, что в отсутствие какой-либо информации о PDF-файле, кроме того факта, что это PDF-файл, «естественным» и наименее предвзятым выбором является функция равномерного распределения. Это удивительный и очевидный результат! Ничего не зная о статистическом процессе, не могли бы вы естественно присвоить равную вероятность всем возможным результатам?

В следующем посте я выполню аналогичные шаги, чтобы увидеть, при каких условиях функция распределения Гаусса «выбрана» природой. Будьте на связи!

Приложение: функциональная производная

Прежде всего, функционал может быть определен как линейное отображение из векторного пространства в его поле скаляров. Грубо говоря, чтобы ограничиться нашими потребностями, мы можем представить себе функционал как операция, которая принимает функцию и связывает с ней число. Одним из простейших функционалов является интеграл, который принимает функцию f (x) -, определенную на некоторой опоре V -, и возвращает скаляр.

Можно определить производные от I по его аргументу f. Чтобы понять, как это сделать, давайте посмотрим на обычное дифференцирование (здесь мы думаем о функциях f: R → R, отображающих области вещественных чисел в вещественные). Это требует, чтобы каждый оценивал приращение некоторой функции f (x) для очень маленького приращения ε. Функция f (x) теперь сама является операцией, а x - ее аргументом. У нас есть

Последнее означает вопрос: насколько сильно изменится f (x), если мы немного изменим точку, в которой мы его оцениваем? Мы можем сформулировать последний вопрос в более общем плане: как изменится результат сопоставления, если мы немного изменим его аргумент? В этом свете определение функциональной производной является правильным: оно требует, чтобы мы оценили, насколько I изменяется, когда мы вносим небольшое изменение в саму функцию f. Единственное предостережение - нам нужно выбрать точку опоры f (x), чтобы получить это небольшое приращение. На изображении ниже мы представляем возможный пример: мы добавляем небольшой бит к f (x) в точной точке t. Математически это можно представить с помощью дельта-функции.

Давайте теперь попробуем оценить функциональную производную функционала, определенного выше - интеграла от f

и простые расчеты показывают

где мы использовали основное свойство дельта-функции, то есть она интегрируется в единицу, если ее аргумент равен нулю в области интегрирования. Вот и все! Вышеупомянутые функциональные производные (уравнение 7) были вычислены с использованием той же логики.

Следующий пост будет в ближайшее время!

Благодарности: спасибо Михаилу Палеокостасу за то, что он прочитал первую версию этого поста и предложил некоторые улучшения!

Почему распределение Гаусса - «естественный» выбор (часть 1)

Прекратите отвечать, используя центральную предельную теорему

Понимание концепции энтропии

Предупреждение: вот и математика!

Приложение: функциональная производная

Похожие вопросы