Защо се нуждаем от частни алгоритми за машинно обучение?

Алгоритмите за машинно обучение работят, като изучават много данни и актуализират техните параметри, за да кодират връзките в тези данни. В идеалния случай бихме искали параметрите на тези модели за машинно обучение да кодират общи модели („пациентите, които пушат, са по-склонни да имат сърдечно заболяване“), а не факти за конкретни примери за обучение („Джейн Смит има сърдечно заболяване“). За съжаление, алгоритмите за машинно обучение не се научават да игнорират тези специфики по подразбиране. Ако искаме да използваме машинно обучение за решаване на важна задача, като създаване на модел за диагностика на рак, тогава, когато публикуваме този модел за машинно обучение (например, като създадем модел за диагностика на рак с отворен код, който да използват лекарите по целия свят), ние може също така неволно да разкрие информация за набора за обучение. Злонамерен нападател може да успее да провери публикувания модел и да научи лична информация за Джейн Смит [SSS17]. Тук идва диференциалната поверителност.

Обещанието за различна поверителност

Диференциалната поверителност описва обещание, направено от притежател на данни или куратор, към субект на данни: „Няма да бъдете засегнати, неблагоприятно или по друг начин, като позволите вашите данни да бъдат използвани във всяко проучване или анализ, независимо какво други проучвания, масиви от данни или източници на информация са налични. [Dwork, 2014]

Съставки

  1. Входно пространство X (със симетрична връзка на съседство »)
  2. Изходно пространство Y (със σ-алгебра на измерими събития)
  3. Параметър за поверителност ε ≥0

Друго определение…

Казваме, че рандомизирано изчисление M осигурява c-диференциална поверителност, ако за всеки два набора от данни A и B и всеки набор от възможни изходи S,S е правилно подмножество на Range(M):

Pr[M(A)belongsto(S)] ≤ Pr[M(B)belongsto(S)]*exp(c*|A+B|)

тук + не означава добавяне. Това означава симетрична разлика (записи в един набор, но не и в другия).

Представете си входа за рандомизирано изчисление като набор от записи. Формалната версия на диференциалната поверителност изисква вероятността изчислението да произвежда даден изход се променя най-много с мултипликативен коефициент, когато добавите или премахнете един запис от входа. Вероятността произтича само от случайността на изчислението; всички други количества (входни данни, запис за добавяне или премахване, даден изход) се приемат като най-лошия възможен случай. Най-големият мултипликативен фактор определя количеството на „разликата в поверителността

Ще навлезем по-дълбоко в тази тема с механизма на Лаплас в следващата публикация.

Благодаря ви, че прочетохте.