Почистване на данни за машинно обучение с машината за измиване на данни

Какво ще стане, ако можете да изтриете цялата лична информация от вашите текстови данни? Машината за измиване на данни го прави лесно. Студеното пране премахва данни, които идентифицират отделни хора, а когато увеличите температурата, компаниите и местоположенията също се премахват.

Тази статия е последната част от поредицата на Concur Labs за поверителността на данните. По-рано сме писали за прототип за „приложение за картографиране, предлагащо различни нива на поверителност“ и проучихме „анонимизирането на данните, приложимо към машинното обучение“. Също така обичаме да сме в крак с „най-новите проучвания за машинно обучение, запазващо поверителността“.

В тази статия ще се потопя в повече подробности за водопроводната инсталация на Data Washing Machine, мисловен експеримент, който за първи път представих в тази статия. Машината за измиване на данни е експеримент за предоставяне на нюансирана поверителност на данните, при който преминаваме отвъд простия модел за включване/отказване на събиране на данни. Все още често е моделът по подразбиране, че приложението ще събира всички възможни данни, които потребителят може да предостави, или потребителят се отказва и не се събира нищо. Според нас е възможно да бъдем по-сложни от това. Data Washing Machine ни позволява да тестваме тази концепция.

Машината за измиване на данни е насочена към лични данни на естествен език, т.е. дълги низове, които се състоят от четим от човека текст. Редовно срещаме низове с информация, необходима за предоставяне на услуга, но тези низове често съдържат лични данни, от които не се нуждаем. В SAP Concur работим с данни за пътувания и разходи и за нас записаните данни за разписки са класически пример за този проблем. Нуждаем се от информация като сума, доставчик и дата за възстановяване на разходите на потребителя, но разписката може също да съдържа името на потребителя, телефонния номер и т.н. Формулярите за обратна връзка и коментари на потребителите осигуряват друг добър случай на използване - когато има опция за свободно въвеждане на текст, потребителите често изпращат лични данни като имена и имейл адреси. Бихме искали да можем автоматично да премахнем това.

Концепцията за поверителност на набиране

Основната характеристика на пералнята е дискът за поверителност, илюстриран тук с различните части от личните данни, които се премахват при всяка настройка. Десет вида лични данни могат да бъдат премахнати: SSN, имейл адрес, име, телефонен номер, първи ред от адреса, пощенски код, местоположение, фирма, собствени съществителни и всички съществителни. При по-ниски настройки данните са силно идентифициращи индивида. При по-високи настройки данните са по-малко идентифициращи, но все още могат да бъдат свързани с индивид (това са „квази-идентифициращи данни“). Социалноосигурителният номер и имейл адресът са уникални за един човек, но много хора могат да споделят едно и също име, така че SSN е с по-ниска настройка за набиране от името. Подреждането на настройките на циферблата е задължително на мнение!

В зависимост от случая на употреба премахнатите лични данни може да повлияят на полезността на останалия текст. Това обикновено не е проблем при по-ниски настройки на циферблата, но може да бъде по-голям проблем при най-високи настройки, където съществителните се премахват. Ако чистите данни се използват за обучение на модел за машинно обучение, премахването на най-идентифициращите части от личните данни не би трябвало да повлияе на точността. Ако точността се понижи за чистите данни, това може да означава, че моделът превишава някои конкретни примери в оригиналните данни.

Методи за идентифициране на лични данни

В Data Washing Machine се използват множество методи за идентифициране и премахване на различни видове лични данни. Ето още подробности за някои от тях:

  1. Регулярни изрази. Някои части от личните данни имат много специфични формати, като например социалноосигурителни номера, телефонни номера и имейл адреси. Те могат да бъдат идентифицирани и премахнати чрез добре изработен „регулярен израз“. Една слабост на този метод е, че той не улавя лошо форматирани данни. Въпреки това, за някои случаи на употреба може да е приемливо просто да премахнете всички големи числа: SSN е 8 цифри, а телефонният номер обикновено е 9 или повече.
  2. Модели за разпознаване на наименувани обекти. Това са стандартни модели за обработка на естествен език, които идентифицират части от текст, които могат да бъдат категоризирани като „субекти“, като хора, места и организации. Тези модели използват синтактична информация за думите в изречението (частта на речта — съществително, глагол и т.н.), както и етикетирани данни за обучение. Предварително обучените модели са налични в пакети с отворен код, като например spaCy, или също е възможно да се използват предварително дефинирани моделни архитектури за обучение на нови модели.
  3. Персонализирани модели за машинно обучение. Те позволяват идентифицирането на лични данни, които са специфични за въпросния набор от данни, но е много вероятно данните за обучение да трябва да бъдат ръчно етикетирани. Това може да отнеме много време, но в някои ситуации 100s до 1000s етикетирани примери може да дадат добри резултати.

Важно е да имате предвид, че всички тези методи са вероятностни и не гарантират премахването на всички лични данни. Тяхната точност може да бъде измерена чрез ръчно анотиране на резултатите върху представителна извадка от набора от данни. Но ако има избор между запазване на всички данни и премахване на определена част от личните данни, втората опция дава на потребителите повече поверителност.

Кой контролира циферблата?

Ако включите Data Washing Machine в дизайна на приложение или система за машинно обучение, кой ще вземе решение за настройката на циферблата?

Контролът върху този циферблат може да бъде на потребителя, което му позволява да даде изрично съгласие за типовете данни, които желаят да споделят. Това прави поверителността на данните по-достъпна и свързана с потребителите. Много хора смятат, че този нюансиран контрол върху поверителността им е недостъпен, но когато се представи като циферблат, той става по-осезаем и осъществим.

Контролът може да бъде на разработчика, ако се приеме, че има пълното съгласие на потребителя да използва данните.

Програмистът може да увеличи циферблата за поверителност възможно най-високо, като същевременно запазва полезността на приложението.

Учен по данни може да проучи компромиса в система за машинно обучение между точността и количеството премахнати данни.

Машината за измиване на данни е концепция, която сметнахме за изключително полезна в нашата работа по поверителността на данните. Това ни отдалечава от модела събиране на всички данни/събиране на никакви данни, кара ни да мислим подробно какво представляват лични данни и най-хубавото от всичко е, че данните ни излизат чисти и ароматизирани!

Други статии от нашата серия за поверителност на данните