Базираните на извадки методи са повсеместни в компютърните науки, статистиката, машинното обучение, оперативните изследвания и други области. Директното вземане на проби от желано вероятностно разпределение обаче може да не винаги е осъществимо или ефективно поради високата си дисперсия, което води до неточни оценки. За справяне с този проблем са разработени извадки по важност и други техники за намаляване на дисперсията.

Извадка по важност

Извадката по значимост е метод, използван в симулациите Монте Карло за намаляване на дисперсията на оценките на определени количества, като по този начин се повишава тяхната точност [1]. Основната идея на извадката по важност е да се избере различно разпределение, от което да се генерират случайни извадки, известно като разпределение на важността, което трябва да бъде избрано така, че да е по-„важно“ в регионите, където интегрантът е значим [2].

Теория

Интегралът на функция f(x) по отношение на функция на плътност на вероятността p(x) върху цялата й област е очакваната стойност на f(X), където X е случайна променлива с разпределение p(x). Това е,

E[f(X)] = ∫ f(x) p(x) dx.

Този интеграл може да бъде оценен чрез вземане на N независими проби от p(x) и изчисляване на средната стойност на извадката.

Въпреки това, в много практически случаи, дисперсията на оценителя може да бъде голяма поради наличието на региони, където f(x) и p(x) се различават значително. Тук влиза в действие вземането на проби по важност.

Да предположим, че имаме друга функция на плътност на вероятността, g(x), от която можем лесно да извлечем проби. Тогава можем да пренапишем интеграла като:

E[f(X)] = ∫ f(x) p(x) / g(x) * g(x) dx = E[f(X) p(X) / g(X)],

където X сега следва разпределението g(x). Очакването може да бъде оценено чрез вземане на N независими извадки от g(x) и изчисляване на средното за извадката f(X) p(X) / g(X). Това е оценката на извадката за важност.

Разпределението на важност g(x) трябва да бъде избрано така, че да е подобно на функцията f(x) p(x), тъй като ще намали дисперсията на оценката.

Приложения

Извадката по важност се използва широко в широк спектър от приложения, включително изчислителна физика, машинно обучение, статистика и компютърна графика. Например, при симулация на редки събития, където искаме да оценим вероятността за събитие, което се случва много рядко при първоначалното разпределение p(x), извадката по важност може да бъде особено полезна [3].

Техники за намаляване на дисперсията

Освен извадката за важност, няколко други техники имат за цел да намалят дисперсията на оценителите на Монте Карло, включително антитетични променливи, контролни променливи, стратифицирана извадка и първоначално зареждане.

Антитетични варианти

Антитетичните вариации са техника, при която вместо вземане на извадка от изцяло нови случайни променливи се използва отрицанието на променлива, взета преди това [4]. Идеята е, че минусът на случайна променлива ще предостави информация за опашката на разпределението, противоположна на оригиналната променлива, което може да помогне за намаляване на дисперсията, ако функцията е монотонна. Получените двойки променливи имат отрицателна корелация, която при подходящи условия може да намали общата дисперсия на оценката.

Варианти на контрола

Контролните променливи са метод, при който използваме известните очаквани стойности на определени променливи, за да помогнем да оценим очакваната стойност на други променливи. Контролната променлива трябва да бъде такава, която е свързана с функцията от интерес и има известна очаквана стойност [5]. Основната идея е да се намали дисперсията чрез изваждане на контролната променлива от представляващата интерес функция и обратно добавяне на нейната известна очаквана стойност.

Стратифицирана извадка

Стратифицираното вземане на проби е метод, при който домейнът на функцията, която трябва да се интегрира, се разделя на неприпокриващи се „страти“ и след това се вземат проби независимо от всяка страта. По този начин целият диапазон от възможни стойности за случайната променлива е представен в извадката. Този метод може драстично да намали дисперсията, ако функцията се държи различно в различните региони на своята област [6].

Стартиране

Bootstrapping е техника, която включва вземане на проби със замяна от наблюдаван набор от данни и след това извършване на извод върху тези първоначални проби. Този метод може да се използва за намаляване на дисперсията и подобряване на точността на оценителя, особено за набори от данни с тежки опашки или ненормални разпределения [7].

Усъвършенствани техники

Няколко усъвършенствани техники се основават на основните методи за намаляване на дисперсията, обсъдени по-горе, включително квази-Монте Карло методи, многостепенни методи на Монте Карло и метода на свързване от миналото (CFTP).

Методи на квази-Монте Карло

Методите на квази-Монте Карло са клас алгоритми за числено интегриране и решаване на някои типове частични диференциални уравнения. Те разширяват идеята за вземане на проби от Монте Карло, като използват детерминистични последователности с ниско несъответствие, а не чисто случайни проби [8]. Доказано е, че тези методи са по-ефективни от традиционните методи на Монте Карло в определени ситуации.

Многостепенни методи на Монте Карло

Многостепенните методи на Монте Карло са клас методи на Монте Карло, които са предназначени да изчисляват оценки на очакваните стойности. Те работят, като разделят изчислението на различни „нива“ и използват по-малък брой скъпи симулации с висока точност, заедно с по-голям брой евтини симулации с ниска точност [9]. Доказано е, че този метод намалява изчислителните разходи, като същевременно запазва точността.

Свързване от миналото (CFTP)

CFTP е техника за генериране на произволни проби точно от стационарното разпределение на верига на Марков. Той беше въведен основно, за да се преодолее проблемът с необходимостта да се знае или отгатне времето на смесване на веригата [10]. Основната идея зад CFTP е да се стартират копия на веригата на Марков, като се започне от всички възможни състояния в миналото, докато се обединят в едно състояние в настоящето.

Извънредни стойности

Откриването на отклонения в данните е обичайна статистическа задача. Въпреки че има много налични методи, може би се чудите как техниките за намаляване на дисперсията, като извадката по важност, могат да се използват за откриване на отклонения. Това е по-нюансирано приложение, но ето обща рамка за това как можете да подходите към този проблем.

  1. Моделиране на проблема: Първата стъпка към използването на извадка по важност за откриване на извънредни стойности е да се оформи откриването на извънредни стойности като проблем за оценка на вероятността от редки събития. В този контекст отклонението е наблюдение, което идва от опашката на разпределението, т.е. рядко събитие.
  2. Избор на разпределение на важността: Извадката по важност включва избор на различно разпределение (разпределение на важността), от което да се вземат извадки. За откриване на извънредни стойности може да искате да изберете разпределение на важността, което прекалено подчертава опашките на целевото разпределение, т.е. регионите, където се намират извънредните стойности. По този начин получавате повече проби в крайните региони, предоставяйки по-добра оценка на тези редки събития.
  3. Оценка: След това можете да оцените вероятността от тези редки събития, като използвате оценката за вземане на извадки за важност. Наблюдения, които имат ниска изчислена вероятност, могат да бъдат маркирани като отклонения.

Други техники за намаляване на дисперсията също могат да бъдат полезни при откриване на извънредни стойности, особено за подобряване на устойчивостта на вашите оценители. Например, стартирането може да предостави непараметричен начин за оценка на разпределението на вашите данни и по този начин да помогне за идентифициране на наблюдения, които са малко вероятни при това прогнозно разпределение.

Не забравяйте, че откриването на отклонения често зависи в голяма степен от конкретния контекст и домейн. Това, което се счита за отклонение в един набор от данни или контекст, може да не е в друг. Също така е важно да се вземе предвид въздействието на пространствата с големи размери върху откриването на отклонения. Когато размерността на набора от данни е висока, традиционните дефиниции на извънредни стойности могат да станат по-малко значими.

Заключение

Техники за намаляване на дисперсията, като извадка на важността, антитетични променливи, контролни променливи, стратифицирана извадка, първоначално зареждане и по-напреднали техники като методи на квази-Монте Карло, многостепенни методи на Монте Карло и метода CFTP, имат значителен принос в областта на статистиката и компютъра наука. Те ни предоставят практически начини за подобряване на точността и ефективността на нашите оценки в симулациите на Монте Карло, което е критичен аспект в областта на статистическите изчисления и вероятностния анализ.

За по-задълбочено разбиране на тези теми, моля, вижте следните ресурси:

  1. Robert, C. & Casella, G. (2013). Статистически методи Монте Карло. Спрингър.
  2. Крьозе, Д. П., Таймре, Т. и Ботев, З. И. (2011). Ръководство за методите на Монте Карло. Уайли.
  3. Асмусен, С. и Глин, П. У. (2007). Стохастична симулация: Алгоритми и анализ. Спрингър.
  4. Glasserman, P. (2004). Методи Монте Карло във финансовия инженеринг. Спрингър.
  5. Law, A.M., & Kelton, W.D. (2000). Симулационно моделиране и анализ. Макгроу-Хил.
  6. Rubinstein, R. Y., & Kroese, D. P. (2016). Симулация и метод Монте Карло. Джон Уайли и синове.
  7. Ефрон, Б. и Тибширани, Р. Дж. (1994). Въведение в bootstrap. CRC преса.
  8. Niederreiter, H. (1992). Генериране на случайни числа и квази-Монте Карло методи. СИАМ.
  9. Giles, M. B. (2015). Многостепенни методи на Монте Карло. Acta Numerica, 24, 259–328.