K-означава групиране и неговия случай на използване в домейна на сигурността

K-означава клъстерирането е един от най-простите и популярни алгоритми за машинно обучение без надзор.

Учене без надзор

Неконтролираното обучение е техника за машинно обучение, при която няма етикети за данните за обучение. Алгоритъмът за машинно обучение се опитва да научи основните модели или разпределения, които управляват данните.

Клъстеризиране

Групирането е една от най-разпространените техники за проучвателен анализ на данни, използвани за получаване на интуиция за структурата на данните. Може да се дефинира като задача за идентифициране на подгрупи в данните, така че точките от данни в една и съща подгрупа (клъстер) да са много сходни, докато точките от данни в различни клъстери са много различни.

Видове групиране

Клъстерирането е вид неконтролирано обучение, при което точките от данни се групират в различни набори въз основа на тяхната степен на сходство.

Различните видове групиране са:

Йерархично групиране
Клъстериране на дялове

Йерархичното групиране се подразделя допълнително на:

Агломеративно групиране
Разделящо групиране

Разделянето на клъстери се подразделя допълнително на:

K-означава групиране
Размито групиране на C-Means

K-означава групиране

K-означава групиране е вид неконтролирано обучение, което се използва, когато имате немаркирани данни (т.е. данни без дефинирани категории или групи). Целта на този алгоритъм е да намери групи в данните, като броят на групите е представен от променливата K. Точките от данни са групирани въз основа на сходството на характеристиките.

Къде се използва алгоритъмът за групиране на k-средни стойности?

Алгоритъмът за клъстериране на k-средни стойности се използва в модели на машинно обучение, където трябва да извършваме обучение без надзор с неправилни исторически данни, така че за този случай използваме алгоритъма за клъстериране на средни стойности.

Какви са основните стъпки за групиране на K-средства?

Стъпка 1: Изберете броя на клъстерите k.
Стъпка 2: Изберете k произволни точки от данните като центроиди.
Стъпка 3: Присвоете всички точки на най-близкия център на клъстера.
Стъпка 4: Преизчислете центроидите на новосформирани клъстери.
Стъпка 5: Повторете стъпки 3 и 4.

Приложения на K-Means Clustering

Клъстерирането на K-Means се използва в различни примери или бизнес случаи в реалния живот, като:

Академично представяне
Диагностични системи
Търсачки
Безжични сензорни мрежи

Как работи групирането на K-Means?

Блок-схемата по-долу показва как работи клъстерирането на k-средства:

Ограничения на K-означава групиране

Понякога е доста трудно да се прогнозира броят на клъстерите или стойността на k.

Резултатът е силно повлиян от оригиналния вход, например броя на клъстерите.
Масив от данни значително се доближава до крайните резултати.
В някои случаи клъстерите показват сложни пространствени изгледи, тогава изпълнението на клъстериране не е добър избор.
Освен това премащабирането понякога е съзнателно, не може да се направи чрез нормализиране или стандартизиране на точки от данни, изходът се променя изцяло.

K-означава случаи на употреба в областта на сигурността

Идентифициране на местонахождения на престъпления-

С данните, свързани с престъпленията, налични в конкретни населени места в даден град, категорията на престъпността, районът на престъплението и връзката между двете могат да дадат качествена представа за застрашените от престъпност райони в рамките на даден град или населено място.

2. Детайлен анализ на записа на обаждане-

Записът с подробности за повикване (cdr) е информацията, уловена от телекомуникационните компании по време на разговор, sms и интернет активност на клиент. Тази информация предоставя по-добра представа за нуждите на клиента, когато се използва с демографски данни на клиента. Можем да клъстерираме дейностите на клиентите за 24 часа, като използваме алгоритъма за клъстериране без надзор k-means. Използва се за разбиране на сегменти от клиенти по отношение на тяхното използване по часове.

3. Автоматично групиране на сигнали за него-

Технологичните компоненти на IT инфраструктурата на големите предприятия като мрежа, съхранение или база данни генерират големи обеми предупредителни съобщения. Тъй като предупредителните съобщения потенциално сочат към оперативни проблеми, те трябва да бъдат ръчно проверени за приоритизиране на процесите надолу по веригата. Групирането на данни може да даде представа за категориите предупреждения и средното време за поправка и да помогне при прогнозиране на неизправности.

4. Класификация на документ за престъпление-

Групирайте документи в множество категории въз основа на тагове, теми и съдържанието на документа. Това е много стандартен класификационен проблем и k-средните са изключително подходящ алгоритъм за тази цел. Първоначалната обработка на документите е необходима, за да представи всеки документ като вектор и използва честотата на термините, за да идентифицира често използвани термини, които помагат за класифицирането на документа. след това векторите на документа се групират, за да помогнат за идентифициране на приликите в групите документи.

5. Кибер профилиране на престъпниците

Киберпрофилирането е процес на събиране на данни от лица и групи за идентифициране на значителни корелации. Идеята за киберпрофилиране произлиза от криминални профили, които предоставят информация за разследващия отдел за класифициране на видовете престъпници, които са били на местопрестъплението.

6. Анализ на данни за споделено пътуване

публично достъпният набор от данни за пътуване с uber предоставя голямо количество ценни данни относно трафика, транзитното време, пиковите места за взимане и други. Анализирането на тези данни е полезно не само в контекста на uber, но и за предоставяне на представа за моделите на градския трафик и ни помага да планираме градовете на бъдещето.

Благодаря ти..!!