Data Science без да виждате данни

Искам данни, но не мога да получа достъп до тях поради проблеми с поверителността. познато? Как можем да се справим с реални хуманитарни предизвикателства (да речем диабет, Алцхаймер или рак), ако достъпът до такива реални масиви от данни е ограничен? Колко пъти сме се сблъсквали с препятствия - Ами сега, това са "лични" данни - забранени. Разбира се, човек може да уважава това, но трябва да има начин.

Наивно решение е анонимизирането или редактирането на чувствителни данни. За съжаление това не работи, защото вече е добре известно, че анонимизираните набори от данни могат бързо да бъдат деанонимизирани. Спомнете си известния пример на Netflix, където анонимизираните матрици за оценка на потребителите бяха бързо деанонимизирани от това, което сега е известно като атаки за свързване на данни, т.е. противник, който знае малко допълнителна информация от различна база данни (в този случай IMDB), може бързо да се възстанови чувствителна информация. Това е, което компютърните учени „Нараянан“ и „Шматиков“ показаха в своя „статей“ относно статистическите атаки за деанонимизиране – които могат да бъдат обобщени до много по-широк клас атаки – надхвърлящи обикновените кръстосани корелации на данни.

Но благодарение на последните усилия на общността OpenMined, се развива нова рамка чрез комбиниране на няколко спретнати, но мощни идеи, включително указатели, диференциална поверителност, хомоморфно криптиране и сигурна многостранна комуникация.

Ето как и защо:

1. Помните ли указателите? — където адресът на паметта към променлива се показва от указателя, вместо от самата променлива. Тази концепция е разширена, за да създаде тензорен указател, тъй като тензорите са основни примитиви в рамките на задълбочено обучение (отклонение: между другото, думата „тензор“ е позната на повечето инженери, граждански и електрически , особено — Книгата на Г. Кронс от 1931 г.: Тензорен анализ на мрежи. За по-внимателно въведение, прочетете това) Така че данните никога няма да напуснат помещенията и вместо това човек може да извършва операции с тези тензорни указатели на действителни данни. Това позволява защитено изследване на данни — включително инженеринг на функции, без изрично разкриване на чувствителни данни, т.е. можем да се съсредоточим върху това, което причинява определено заболяване, без да знаем или да се интересуваме кой има това заболяване.

2. Това достатъчно ли е? защото човек може да търси, комбинира, прави заявки или по-общо казано, изчислява функция върху данните, така че промените в изхода на функцията да могат да се използват за извеждане на частна информация в записите. Въведете диференциална поверителност. Тук ключовата идея е да се позволи достъп до данни, но по начин, по който изходите на дадена функция биха попречили на човек да научи нещо за индивида, което не може да бъде научено без достъп. Така че сега човек може да прави заявки, да изчислява или да работи с база данни, като същевременно гарантира поверителността на записите в тази база данни. Разбира се, човек би имал перфектна поверителност, ако изходът на функцията беше инвариантен (или по същество неразличим) за замествания или изтриване на записи в тази база данни. Това може да се направи чрез добавяне на шум към изходите на функцията, за да се осигури желана гаранция за поверителност (т.е. минимизиране на загубата на поверителност). Разбира се, трябва да се прецени колко шум да се добави и къде да се добави. Така че диференциалната поверителност наистина е хубава рамка, тъй като третира цялата информация като потенциално разпознаваема - като по този начин избягва необходимостта да се разбере кои части от информацията са чувствителни и по този начин придобива имунитет срещу атаки за свързване на данни. Освен това, ако има множество операнди (мисловни функции или заявки) върху данните, произтичащата загуба на сигурност или информация от всеки различен частен анализ може да се комбинира, така че да може смислено да се изчисли загубата на сигурност/поверителност.

3. Добре. Известна мярка за поверителност на данните — но това все още не е достатъчно — какво ще кажете за изчисленията, които се извършват върху данните (те могат да бъдат разкрити), какво ще кажете за моделите сами по себе си (тези параметри, които сте тренирали толкова болезнено, могат да бъдат откраднати! Или променени) и какво се случва, когато има няколко собственици на модели и данни! Да, валиден. Така че сега добре дошли в света на криптирането. Освен че Rijndeal (известен още като AES — Advanced Encryption Standard) няма да лети в този случай. Защо? — защото услуга, която работи в облака или другаде, ще се нуждае от достъп до ключа (уязвимост на сигурността), за да изчисли тези данни. И така, това, от което се нуждае човек, е способността да изчислява върху криптирани данни — и това прави хомоморфното криптиране. Замислен за първи път от двама от екипа на RSA (Rivest, Adelman през 1978 г.), той за пръв път се появи на бял свят през 2009 г. от Крейг Джентри, използвайки криптография, базирана на решетка. Така че, в сценария с един собственик, ненадеждна страна може да работи или да изчислява или да се обучава върху модела с криптирани данни. Страхотен. Какво ще кажете за многопартийния сценарий? - споделена собственост!

4. Въведете сигурна многостранна комуникация (MPC); страхотно четиво е „класиката“ на Голдрайх — глава 7, която започва с случая на честно мнозинство. С прости думи, MPC позволява на множество страни да изчисляват съвместно върху споделени, но с лични данни. Например изследователи от Бостънския университет са използвали защитен MPC, за да анализират разликата в заплатите между половете в Бостън, използвайки данни за заплатите, предоставени от компании в района на Бостън. Прочетете повече тук.

Така че наистина, похвала на екипа на Openmined, който вгражда тези мощни концепции в стандартни библиотеки за машинно обучение (Pytorch и Tensorflow), за да разшири и издигне приложението на тези платформи към реални проблеми. Прочетете повече за тяхната работа и блог тук.

Data Science без да виждате данни

Подобни въпроси