Ролята на AI, ML и Deep Learning в поверителността

Машинното обучение, изкуственият интелект, а сега и задълбоченото обучение са станали толкова прекомерно използвани, че могат да бъдат синоним на прах от пикси и магически заклинания. Но подходите, използващи тези техники, тихомълком променят начина, по който организациите се изправят пред най-належащото предизвикателство в разбирането и защитата на данните.

Това предизвикателство може да се опише накратко като как най-добре да постигнете знания за данните, за да управлявате и защитавате по-добре информацията.

Познаването на вашите данни е от съществено значение за защитата на вашите данни, защото не можете да защитите това, което не разбирате. Познаването на данните също е от решаващо значение за получаване на представа, профилиране на риска и стойност от вашите данни. Традиционните ръчни подходи за събиране на разузнавателна информация за това какви лични данни се събират и обработват зависят от интервюта и проучвания. Нито интервютата, нито проучванията са надеждни, точни или мащабируеми - особено в ерата на Big Data. Машинно-базираните подходи при запитване на хранилища за данни обещават по-големи детайли, надеждност и прецизност в знанията за данните - особено ако се предприемат правилните стъпки за привеждане в съответствие на модела с входните данни.

Но сортирането, организирането и осмислянето на петабайти цифрови отпадъци не е лесна задача. Автоматизирането на базирани на правила техники за класификация помага, но все още не разбира контекста на данните. Това е мястото, където усъвършенстваното машинно обучение и свързаните с него подходи предоставят пътна карта за по-добро картографиране и разбиране на личните данни – основата на ефективната защита на личните данни и поверителността.

Хора и поверителност

По ирония на съдбата, когато става дума за проблеми с поверителността, целта на усъвършенстваното машинно обучение не е непременно да бъде по-скоро като човек по отношение на обработката на данни. AI обикновено се свързва с осмислянето на въвеждане като текст, взаимодействия и изображения чрез постоянна итерация и обратна връзка за стимулиране на автоматизация на действие и поведение, което е неразличимо от хората. За изискванията за защита на данните и поверителността важи обратното: хората са лоши преценки за това какви данни къде се намират, определят как данните са свързани с други данни, проследяват използването и потоците на данни и оценяват риска от данни.

По отношение на поверителността основната цел е да се анализират данни въз основа на връзки, а не само на сходство, по начини, които хората не могат. ML и Deep Learning предоставят набор от подходи, които могат да бъдат приложени към специфични предизвикателства за данни и за изграждане на устойчив модел за проблеми с поверителността и защитата на данните, които зависят от контекста, картографирането на връзките и потоците от данни.

Нито една отделна техника не е сребърен куршум сама по себе си, обаче, чрез комбиниране на компоненти за машинно обучение по начини, които са „подходящи за целта“ – независимо дали произволни дървовидни класификатори за подобряване на точността, корелацията и разсъжденията; вероятностни прагове за оценка на връзките между данните; групиране за предсказуемо вземане на проби и сравнителен анализ на разпространението на лични данни; и невронни мрежи за установяване на извличане и разделяне на обекти, както и точкуване на доверие за балансиране на прецизността и извикването - компаниите могат да изградят и поддържат пълна картина на поверителността на данните.

Човек срещу машина

За проблеми с поверителността и защитата на личните данни човешките усилия се оказват недостатъчни за намиране, класифициране или сортиране на лична информация. Поверителността разчита преди всичко на разбирането каква лична информация събира една организация и как тази информация се обработва и използва. Това изисква точен опис на личните данни. Интервютата и проучванията могат да съставят описи само въз основа на спомени - не на действителни записи на данни. Една машина е по-способна от човека, когато става въпрос за изследване на записи на данни в други машини.

Машината да изгради инвентаризация на данни изисква способност да преглежда всеки източник на данни и да класифицира тези данни по тип, лице, пребиваване и приложение, независимо дали тези данни се намират в база данни, споделяне на файлове, хранилище за големи данни или облак обслужване. Това често се характеризира като изграждане на инвентаризация на данни, където данните могат да бъдат организирани с помощта на различна опорна точка, за да се разбере по-добре техният контекст.

Това е мястото, където подходи, които могат да установят степента на корелация между широко разпространени стойности на данни, графични връзки на силно корелирани стойности чрез разсъждения и прилагане на модели на машинно обучение за точност на класификацията, могат да отговорят на предизвикателството за познаване на данните.

Ранните опити за тези видове машинно управлявани усилия за анализиране на данни и организирането им в цялостен инвентар разчитаха на готови технологии за индексиране и съпоставяне на шаблони. Инструменти като Elasticsearch предоставят лесни начини за индексиране на терабайти данни и съпоставяне на подобна изглеждаща информация с помощта на различни ML алгоритми.

Въпреки че са стъпка напред, тези ранни опити за инвентаризация на данни имат несъвместими недостатъци. В хода на опитите си да решат проблема с въвеждането на данни, те създават нови проблеми. Използването на външно хранилище за анализ е непрактично с обема данни, които повечето организации съхраняват, тъй като изисква копиране на огромни количества чувствителна информация във вторично хранилище. Това също носи огромни инфраструктурни разходи, необходими за захранване на индексирането. Освен това създава сериозен проблем със сигурността, като централизира чувствителни данни на едно място.

Проблемите обаче не са свързани само със стъпките, необходими за извършване на индексирането. Стойността на откритията също е ограничена. Дори пълният индекс ще помогне да се класифицират данните по тип, но не и по човек. В основата си поверителността изисква контекст на хората; изисква разбиране кои данни са лични и на кого принадлежат. Това, което прави данните лични, е, че те са контекстуално свързани с дадено лице: т.е. по дефиниция те са за или от това лице.

Наивните алгоритми за класифициране на ML, които могат да съвпадат с модели, могат да помогнат за разрешаването на две сходни изглеждащи обекти, но те не могат сами по себе си да покажат корелация на дадено лице, за да определят дали данните представляват лична информация. Това изисква различен вид ML и задълбочено обучение, които не са налични в готови инструменти като Elasticsearch.

Голямата идея за разузнаване на данни

Поверителността и защитата на личните данни започват с ефективно разузнаване на данни, което може да разбере какви лични данни събира дадена организация, на кого принадлежат и как се използват. Понякога това се характеризира като инвентаризация на данни плюс запис на обработка на данни, но надхвърля това. Изисква се способност за намиране, класифициране, корелиране, каталогизиране и дори проследяване на данни, докато се улавят и обработват в една компания. Нито една от тези задачи не е лесна за стартиране и те стават още по-трудни от сложността и разнообразието на това къде и как компаниите събират данни за хора в своите мобилни, уеб и IoT приложения.

Опитът за решаване на тези проблеми чрез повторение на едно парче от пъзела е подобрение на аспекти на проблема, но все още оставя по-широкия проблем с познаването на данните от лице или образувание неразрешен. Освен това, всеки подход на черна кутия, който не позволява взаимодействие с оценката на доверието или прецизиране на корелационните методологии и точността на класификацията, никога няма да се бори със сложността на корпоративните масиви от данни.

За да се напредне към целта за разбиране на взаимовръзките между откритите данни и атрибути с висока степен на точност и увереност в контекста на чиито данни са, без тежестта на ненужен шум и фалшиви положителни резултати, е необходимо специално изградено машинно обучение. Откриването на данни, класификацията, корелацията на самоличността, както и специфичните за поверителността изисквания, като проверка на съгласието, разчитат на различни техники, модели на обучение, разсъждения и тегло на входа. Въпреки това, тези елементи трябва да се впишат в един сплотен модел със способността да реагират на нова машина или човешко въвеждане, за да осигурят защита на поверителността на живите и дишащи данни.