Значение на дифузията на Langevin част 1 (дифузионни модели + машинно обучение)

Грешка при генерализация от по-висок порядък за дискретизация от първи порядък на дифузия на Ланжевен(arXiv)

Резюме:Ние предлагаме нов подход за анализиране на грешката на обобщаване за дискретизация на дифузията на Ланжевен, като например стохастичната градиентна динамика на Ланжевен (SGLD). За ε толеранс на очакваната грешка на обобщаване е известно, че дискретизация от първи ред може да достигне тази цел, ако изпълним Ω(ε−1log(ε−1)) итерации с Ω(ε−1) проби. В тази статия показваме, че с допълнителни допускания за гладкост, дори методите от първи ред могат да постигнат произволна сложност по време на изпълнение. По-точно, за всеки N›0, ние предоставяме достатъчно условие за гладкост на функцията на загубата, така че дискретизация от първи ред да може да достигне ε очаквана грешка на обобщение, дадена Ω(ε−1/Nlog(ε−1)) итерации с Ω(ε −1) проби

2. Диференциална динамика на поверителност на дифузия на Ланжевен и шумно градиентно спускане(arXiv)

Автор:Rishav Chourasia, Jiayuan Ye, Reza Shokri

Резюме: Какво е изтичането на информация от итеративен рандомизиран алгоритъм за обучение относно неговите данни за обучение, когато вътрешното състояние на алгоритъма е \emph{private}? Какъв е приносът на всяка конкретна тренировъчна епоха за изтичането на информация през пуснатия модел? Ние изучаваме този проблем за шумни алгоритми за градиентно спускане и моделираме \emph{динамиката} на диференциалната загуба на поверителност на Rényi по време на процеса на обучение. Нашият анализ проследява доказуемо \emph{тясна} връзка на дивергенцията на Рени между двойката вероятностни разпределения върху параметри на модели, обучени на съседни масиви от данни. Доказваме, че загубата на поверителност конвергира експоненциално бързо за плавни и силно изпъкнали функции на загуба, което е значително подобрение в сравнение с теоремите за композиция (които надценяват загубата на поверителност чрез ограничаване на общата й стойност отгоре върху всички изчисления на междинен градиент). За Lipschitz, гладки и силно изпъкнали функции на загуба, ние доказваме оптимална полезност с малка градиентна сложност за шумни алгоритми за градиентно спускане

Значение на дифузията на Langevin част 1 (дифузионни модели + машинно обучение)

Подобни въпроси