Въведение в различни типове задачи за класификация

Класификацията е популярен подход за контролирано машинно обучение, който категоризира набор от данни в групи в зависимост от наличните функции. Има широк спектър от приложения, напр. разпознаване на изображения, разпознаване на реч, медицинска диагноза, класификация на документи, откриване на спам, за да назовем само няколко. Списъкът обаче непрекъснато се увеличава. Конкретният „тип“ на задача за класификация се определя от целевата променлива на разглеждания набор от данни. Когато се занимавате с проблем с класификацията, е изключително важно да разберете към кой конкретен „тип“ принадлежи, като неуспехът може да доведе до напълно грешни резултати. В тази кратка статия ще обсъдя различни видове проблеми с класификацията, които може да срещнете, когато работите с данни от реалния свят.

Видове класификация

В този раздел ще разгледаме различни видове класификации. Нека дефинираме два параметъра, които ще бъдат важни за дефинирането на всеки тип:

1. Двоична класификация :

Вероятно това е най-простият тип класификационни задачи. В този случай екземпляр на данни се присвоява на една от двете групи, обикновено обозначени с 0 и 1. Тези 0 и 1 се наричат ​​също етикети и заедно образуват това, което се нарича двоичен клас . Всеки екземпляр на данни е свързан с един и само един етикет. Следователно този тип класификация има

Пример за двоична класификация може да бъде медицинска диагноза за едно медицинско състояние, напр. заболяване (да кажем етикет 1) срещу липса на заболяване (етикет 0).

2. Многокласова класификация:

В този случай етикет, свързан с екземпляр на данни, не е необходимо да бъде 0 или 1, а може да има произволна стойност като 0,1,2,3,… Заедно тези етикети образуват мултиклас. Подобно на двоичната класификация, тук също един екземпляр на данни може да има един и само един етикет. Така че в този случай имаме

Класифицирането на набор от изображения на животни въз основа на типа, където може да е куче (етикет 0), котка (етикет 1) или заек (етикет 2) е пример за многокласова класификация.

3. Класификация с множество етикети :

Тук едно копие на данни може да има множество етикети, прикрепени към него едновременно. Етикетите обаче могат да бъдат само от двоичен типт.е. 0 или 1. Това ни казва, че броят на целевите променливи, с които трябва да се работи в този тип класификация, е по същество по-голям от 1. Следователно ние имаме

Идентифицирането на етикет(а), свързан(и) със статия въз основа на нейното съдържание, е пример за класификация с множество етикети, където статията може да бъде припокриване между различни неидентични области, напр., политика, спорт, икономика и т.н. .

4. Многоцелева класификация :

Човек може да мисли за това като за обобщение както на многокласови, така и на многоетикетни класификации. Това означава, че един екземпляр на данни може да има повече от един етикет (подобно на multilabel), където всеки етикет може да приема произволна стойност като 0,1,2,... (както в multiclass). Следователно за този тип класификация имаме

Да предположим, че искате да класифицирате плодовете въз основа на двата вида и цвета. Така че в този случай имате две целеви променливи: „тип“ и „цвят“. Всеки от тях може да приема стойности от краен набор, чийто размер не трябва да бъде 2. Като например, един плод може да бъде от всякакъв вид като „ябълка“, „банан“, „портокал“ и също така да има произволен цвят „жълт“, "зелено", "червено". Това е пример за многоцелева класификация.

Всичко, което сме научили досега, може да бъде обобщено в следната таблица:

Допълнителна информация

За да знаете как да използвате scikit-learn за различни типове проблеми с класификацията, можете да се обърнете към следните връзки: