Всички знаем, че Матрицата на объркването е често срещан термин, който идва в машинното обучение. Но как това може да бъде свързано с киберпрестъпленията.

Нека започнем да обсъждаме матрицата на объркването

Какво е киберпрестъпност?

Киберпрестъпността е престъпна дейност, която е насочена или използва компютър, компютърна мрежа или мрежово устройство. Повечето, но не всички, киберпрестъпления се извършват от киберпрестъпници или хакери, които искат да правят пари. Киберпрестъпленията се извършват от лица или организации.

Някои киберпрестъпници са организирани, използват усъвършенствани техники и имат високи технически умения. Други са начинаещи хакери. Рядко киберпрестъпленията имат за цел да повредят компютри по причини, различни от печалба. Те могат да бъдат политически или лични.

Видове киберпрестъпления

Ето някои конкретни примери за различните видове киберпрестъпления:

  • Имейл и интернет измами.
  • Измами със самоличност (където се краде и използва лична информация).
  • Кражба на финансови или картови данни за плащане.
  • Кражба и продажба на корпоративни данни.
  • Киберекет (изискване на пари за предотвратяване на заплаха от атака).
  • Атаки с ransomware (вид кибер изнудване).
  • Криптовалута (където хакерите копаят криптовалута, използвайки ресурси, които не притежават).
  • Кибершпионаж (където хакерите имат достъп до държавни или фирмени данни).

Повечето киберпрестъпления попадат в две основни категории:

  • Престъпна дейност, насочена към
  • Престъпна дейност, която използва компютри за извършване на други престъпления.

МАШИННО ОБУЧЕНИЕ В КИБЕР СИГУРНОСТТА

Машинното обучение се превърна в жизненоважна технология за киберсигурността. Машинното обучение премахва превантивно киберзаплахите и укрепва инфраструктурата за сигурност чрез откриване на шаблони, картографиране на киберпрестъпления в реално време и задълбочено тестване за проникване.

Какво представлява матрицата на объркването?

В областта на машинното обучение и по-специално проблема със статистическата класификация, матрицата на объркване, известна още като матрица на грешка, е специфично оформление на таблица, което позволява визуализиране на ефективността на алгоритъм, обикновено контролирано обучение (при неконтролирано обучение обикновено се нарича съвпадаща матрица). Всеки ред от матрицата представлява екземплярите в действителен клас, докато всяка колона представлява екземплярите в предвиден клас или обратното

Матрица на объркване показва начините, по които вашият класификационен модел
е объркан, когато прави прогнози.

Особено през последното десетилетие използването на Интернет нараства бързо. Въпреки това, тъй като интернет става част от ежедневните дейности, киберпрестъпността също се увеличава. Киберпрестъпленията ще струват близо 6 трилиона долара годишно до 2021 г. според доклада за предприятията за киберсигурност през 2020 г. За незаконни дейности киберпрестъпниците използват всякакви мрежови изчислителни устройства като основно средство за комуникация с устройствата на жертвите, така че нападателите получават печалба по отношение на финанси, публичност и други чрез използване на уязвимостите в системата. Киберпрестъпленията непрекъснато нарастват ежедневно. Оценяването на киберпрестъпните атаки и предоставянето на защитни мерки чрез ръчни методи, използвайки съществуващи технически подходи, както и разследванията често не успяват да контролират киберпрестъпните атаки. Съществуващата литература в областта на киберпрестъпленията страда от липса на изчислителни методи за прогнозиране на киберпрестъпления, особено върху неструктурирани данни. Ето защо, това проучване предлага гъвкав изчислителен инструмент, използващ техники за машинно обучение, за да анализира процента на киберпрестъпленията на ниво държава в държава, която помага да се класифицират киберпрестъпленията. Анализите на сигурността с асоциирането на подходи за анализ на данни ни помагат да анализираме и класифицираме престъпления от базирани в Индия интегрирани данни, които могат да бъдат или структурирани, или неструктурирани.

Да предположим, че работим върху проблем с двоична класификация, за да открием дали дадена транзакция е измамна или не. Нашият модел използва характеристиките на потребителя и транзакцията и връща1, ако се предполага, че транзакцията е измамна и 0ако не.

Като се има предвид, че моделите за машинно обучение рядко са 100% точни, ще има ниво на риск при внедряването на този модел. Ако неправилно класифицираме транзакция, която не е измамна, като измама, тогава може да загубим тази транзакция и евентуално дори бизнеса на бъдещия клиент. От друга страна, ако неправилно открием измамна транзакция като неизмамна, тогава може да загубим стойността на тази транзакция.

Матрицата на объркването по същество поставя получените прогнози в четири групи. Те са както следва:

Истински положителен (TP): моделът предвижда измама и транзакцията наистина е измамна.

Грешно положителен (FP):моделът предвижда измама, но транзакцията не е измамна.

Истински отрицателен (TN):моделът не предвижда измама и транзакцията не е измамна.

Грешно отрицателен (FN): моделът не предвижда измама, а транзакцията всъщност е измамна.

Освен това има два вида грешки в прогнозите, те са както следва:

Грешно положителен резултат (FP) — грешка тип 1

  • Предсказаната стойност е грешно прогнозирана
  • Действителната стойност беше отрицателна, но моделът прогнозира положителна стойност
  • Известна също като грешка от тип 1

Грешно отрицателно (FN) — Грешка от тип 2

  • Предсказаната стойност е грешно прогнозирана
  • Действителната стойност беше положителна, но моделът прогнозира отрицателна стойност
  • Известна също като грешка от тип 2

Примерен казус

Нека се престорим, че имаме двукласов класификационен проблем за предсказване дали снимката съдържа мъж или жена.

Имаме набор от тестови данни от 10 записа с очаквани резултати и набор от прогнози от нашия алгоритъм за класификация.

Expected,  Predicted
1) man,  woman
2) man,   man
3) woman,  woman
4) man,  man
5) woman,  man
6) woman,   woman
7) woman,   woman
8) man,   man
9) man,   woman
10) woman,   woman

Нека започнем и изчислим точността на класификацията за този набор от прогнози.

Алгоритъмът прави 7 от 10-те прогнози правилни с точност от 70%.

accuracy = total correct predictions / total predictions made * 100
accuracy = 7 / 10 * 100

Но какъв тип грешки бяха направени?

Нека превърнем нашите резултати в матрица на объркване.

Първо, трябва да изчислим броя на правилните прогнози за всеки клас.

men classified as men: 3
women classified as women: 4

Сега можем да изчислим броя на неправилните прогнози за всеки клас, организирани по прогнозираната стойност

men classified as women: 2
woman classified as men: 1

Сега можем да подредим тези стойности в матрицата на объркване от 2 класа:

       men women
men     3      1
women   2     4

Можем да научим много от тази таблица.

  • Общият брой действителни мъже в набора от данни е сумата от стойностите в колоната мъже (3 + 2)
  • Общият брой действителни жени в набора от данни е сумата от стойностите в колоната за жени (1 +4).
  • Правилните стойности са организирани в диагонална линия от горния ляв до долния десен ъгъл на матрицата (3 + 4).
  • Допуснати са повече грешки при предсказването на мъжете като жени, отколкото при предсказването на жените като мъже.