Тъй като важните неща се събират в калъф, имате череп за мозъка си, пластмасова втулка за гребена си и портфейл за парите си, но какво ще кажете за вашата Поверителноств който случай ще сложи го. __________________Анонимен — — — — — — — —

Точно намерение:-

Всеки, който започва пътуването си в областта на машинното обучение или дълбокото обучение, се обезсърчава от два специфични атрибута:

  • На второ място и най-важното четене на книги (като Neuro Networks and Deep Learning) за тези домейни и прилагане на научни статии за конкретни приложения за напр. По-бърз RCNN, Pix2Pix.

И така, помислих си, вместо да пиша за внедряване, базирано на код или да обяснявам цяло приложение от главата до петите, защо просто да не се противопоставя на статуквото и да резонирам с намерението си да помогна на млади ентусиасти на дълбокото обучение, като напиша резюмета на глави за дълбоко обучение/машина книги, свързани с ученето и какво по-добро от това да започнете с библията на поверителността „Алгоритмичните основи на диференциалната поверителност“.

Ето защо, започвайки с тази статия, ще предоставя опростено резюме на различни раздели от книгата „„Алгоритмичните основи на диференциалната поверителност““, което в крайна сметка ще помогне на всички млади практикуващи дълбоко обучение да се справят с призраците си и да се почувстват по-добре дошли в това дълбоко пространство за учене, отколкото са се чувствали преди.

Така че, стига с намеренията, нека да влезем в действие.

Раздел I: Обещаващо определение за неизбежно забавяне:-

Нека започнем, като си зададем въпрос, например Какво е диференциална поверителност дали е техника, технология или алгоритъм или определение

Така, за да илюстрираме горния въпрос, нека преминем през

Пример:

„Да предположим, че застрахователна фирма проведе проучване върху медицинска база данни, което им позволи да направят заключение, че „пушенето причинява рак“, което пряко повлия на мнението на застрахователна компания за дългосрочните медицински разходи на пушача.“

Е, горният сценарий може да повдигне още няколко въпроса като:

  1. Пушачът вреден ли е от анализа?
  2. Нарушено ли е поверителността на пушача?
  3. Беше ли „изтекла“ информацията му?

Диференциалната поверителност ще приеме мнението, че не е така, с обосновката, че въздействието върху пушача е същото, независимо от това дали той е участвал или не в проучването. Именно заключенията, направени в проучването са засегнали пушача, а не неговото присъствие или отсъствие в набора от данни.

Следователно Диференциалната поверителност е определение, а не алгоритъм, който е както следва:

„Диференциална поверителност“ описва обещание, направено от притежател на данни или куратор към субект на данни: „Няма да бъдете засегнати, неблагоприятно или по друг начин, като позволите вашите данни да бъдат използвани във всяко проучване или анализ, независимо какви други проучвания, набори от данни или източници на информация
са налични.“

Накратко, той разглежда парадокса да не научите нищо за даден индивид, докато научавате полезна информация за населението.

Диференциалната поверителност по-специално гарантира, че всяка последователност от резултати (отговори на заявки) е „по същество“ еднакво вероятно да се случи, независимо от присъствието или отсъствието на което и да е лице. След това вероятностите се вземат пред произволни избори, направени от механизма за поверителност (нещо, контролирано от куратора на данни), терминът „по същество“ обикновено се улавя от параметър, ε. По-малъкε(епсилон) ще осигури по-добра поверителност (и по-малко точни отговори).

Добре, тъй като говорим за ε (епсилон), време е да произведем интересен факт от цифровия архив относно диференциалния параметър за поверителност „епсилон“.

„Внедряването на диференциалната поверителност на MacOS използва епсилон от 6, докато iOS 10 имаше епсилон от 14. Тъй като тази стойност на епсилон се увеличава, рискът специфичните данни на отделния потребител да бъдат установени нараства експоненциално.“

За да прочетете повече за това, задръжте курсора на мишката върху точка 2 от раздела за справки

Раздел II: Защо диференциалната поверителност стои отделно в надпреварата за справяне с анализа на данни, запазващ поверителността

А. Данните не могат да бъдат напълно анонимизирани и да останат полезни:

Тъй като е истина, че по-богатите данни са по-интересни и полезни за всякакъв вид анализ на данни. Това доведе до понятия за „анонимизиране» и „премахване на лична информация“, където надеждата е, че части от записите на данни могат да бъдат потиснати и останалата част публикувана и използвана
за анализ.

Сега, как потискат данните??

Чрез използване на подход, наречен „Именуване“. при този подход те назовават индивида чрез понякога изненадваща колекция от полета или атрибути, като комбинация от пощенски код, дата на раждане и пол, или дори имената на три филма и приблизителните дати, на които индивидът ги е гледал филми

Каква е ползата за нападателя на поверителността??

По принцип тази способност за „наименуване“ може да се използва в „атака за свързване“, за да се съпоставят „анонимизирани“ записи с неанонимизирани записи в различен набор от данни.

Примери от реалния живот:

  1. Медицинските досиета на губернатора на Масачузетс бяха идентифицирани чрез съпоставяне на анонимни данни за медицински прегледи с (публично достъпни) регистрационни записи на избиратели.
  2. Абонатите на Netflix, чиято история на гледане се съдържаше в колекция от анонимни филмови записи, публикувани от Netflix като данни за обучение за състезание по препоръка, бяха идентифицирани чрез връзка с Internet Movie Database (IMDb).

Но ако говорим за нашата водеща Диференциална поверителност, тя като цяло неутрализира атаките за свързване: тъй като диференциалната частност е свойство на механизма за достъп до данни и не е свързано с наличието или отсъствието на спомагателна информация, налична за противникът (противникът).

Следователно достъпът до IMDb не би позволил атака с връзка
към някой, чиято история е в набора за обучение на Netflix, отколкото към
някой извън набора за обучение.

Б. Заявките за големи набори не са защитни:

При този подход авторът ясно заявява, че принуждаването на заявките да бъдат върху големи набори не е решение, тъй като може да доведе до друг тип атака, известна като Атака с разлика.

Нека го разберем чрез пример:

Да предположим, че е известно, че г-н Чадха е в определена медицинска база данни. Взети заедно, отговорите на двете големи заявки „Колко души в базата данни имат диабет?“ и „Колко души, които не са на име Чадха, в базата данни имат диабет?“ дават диабетния статус на г-н Чадха.

Знам, че това беше твърде много информация, за да поглъщате наведнъж, затова изпийте чаша кафе или веган сок, за да се подготвите за следващите техники.

В. „Обикновените“ факти не са „ОК“:

Разкриването на „обикновени“ факти, като например закупуване на ориз, може да бъде проблематично, ако субект на данни бъде проследен с течение на времето. Например, помислете за г-жа Шалини, която редовно купува ориз, година след година, докато изведнъж не премине към рядко купуване на ориз. Един анализатор може да заключи, че г-жа Шалини най-вероятно е била диагностицирана със захар. Анализаторът може да е прав или може да не е прав; така или иначе, поверителността на г-жа Шалини е накърнена.

Г. Философия „Само няколко“:

При техниката „само няколко“ поверителността на „само няколко“ участници е компрометирана и всъщност тя осигурява защита на поверителността за „типични“ членове на набор от данни или по-общо казано, „повечето“ членове. Като оставим настрана опасенията, че извънредните може да са точно тези хора, за които поверителността е най-важна. Следователно твърдението, че това е техника, която може да се справи с всички проблеми с анализа на данните, свързани с поверителността, ще бъде доста по-рано, тъй като все още
не е разработена добре формулирана дефиниция на поверителността, съответстваща на философията на „само няколко“. Диференциалната поверителност обаче винаги действа като алтернатива, когато философията „само няколко“ бъде отхвърлена.

И така, това е, моите колеги читатели, с последната техника стигнахте до края на тази статия/обобщена публикация.

За по-нататъшно укрепване на разбирането ви проверете връзките, споменати в раздела за справки

Препратки:

  1. „Дефиницията на диференциалната поверителност от Синтия Дуърк“
  2. „Как една от ключовите предпазни мерки за поверителност на APPLE не успява“.
  3. „„Диференциалната поверителност“ на APPLE е за събиране на Вашите данни, но не и на Вашите данни“.

Кът за благодарност:

Огромен вик към Udacity и Akshit Jain за това, че ми предоставиха тази възможност да се развивам и да науча за тази нова област на изкуствения интелект и специални благодарности на Trask за насочване на учащите като мен към скорошни надеждни ресурси за знания. И накрая, радвам се, че съм част от тази млада жизнена общност #UdacityFacebookScholar.

Благодаря ви за вниманието

Използването на своето време за четене на моятаработа означава света за мен. Имам предвид това напълно.

Ако ви е харесала тази история, полудете с бутона ръкопляскайте( 👏)! Това ще помогне на други хора да намерят работата ми.

Също така, следвайте ме в Medium, LinkedIn или Twitter, ако искате! Аз бих се радвал, че.