Част 1

Машинно обучение, Обработка на естествен език,Задълбочено обучение и Изкуственият интелект получиха много внимание през последните години. Как действат? Всичко същото ли е? Какво ги отличава един от друг?

Фразата „Изкуствен интелект“, дисциплина на компютърните науки, е използвана за първи път през 1956 г. от американски компютърен учен на име Джон Маккарти. Способността на машината за мислене и учене е известна като изкуствен интелект (AI). Целта на AI е да създаде роботи, които могат да учат и разсъждават като човешкия мозък.

Преди да навлезем в по-голяма дълбочина, от решаващо значение е да разберем един аспект на изкуствения интелект (AI): докато повечето хора погрешно смятат AI за технология, това всъщност е концепция, която се отнася до това колко интелигентно роботите могат да се справят с работата.

Днес тя обхваща широк спектър от теми, включително хуманоидни роботи и интерпретация на данни. Напоследък той стана по-известен в резултат на увеличената изчислителна мощност и масивни данни. Той позволява на всяка организация да придобие по-добра представа от собствените си данни, тъй като може да открие модели в данните по-ефективно от хората.

Едно и също нещо ли е машинното обучение и AI? Всъщност не. Въпреки че двете имена често се използват като синоними, те не са едно и също. Докато машинното обучение е компонент на парадигмата на изкуствения интелект и може да се разглежда като клон на ИИ, изкуственият интелект е по-общ термин. Има няколко идеи, включени в парадигмата на AI, включително машинно обучение, дълбоко обучение, обработка на естествен език и много други.

Може да си представите машинното обучение като област на изкуствения интелект (AI), която се фокусира върху овластяването на компютрите да се учат от данни и разум и да действат независимо от хората. Трябва да предоставим на компютрите достъп до данни, така че те да могат да учат сами, според цялостната парадигма за машинно обучение.

Подобно на традиционното обучение, дълбокото обучение се фокусира най-вече върху неструктуриран вход, включително снимки, текст и аудио.

И ние използваме обработка на естествен език, особено когато работим с текстови данни. В настоящата ситуация обработката на естествен език (NLP) не изисква въвеждане. Това е една от областите на проучване и изследване, която е доста активна и интересът към нея нарасна през последните няколко години. Въпреки че основните концепции на НЛП са доста прости, разбирането на по-сложните проблеми може да бъде предизвикателство.

Това е мястото, където авангардни алгоритми като машинно обучение, дълбоко обучение и други стават толкова важни. Фигура 1–1 е диаграма на Вен на парадигмата на ИИ.

Машинно обучение

Машинното обучение може да се дефинира като способността на машината да се учи от опит (данни) и да прави смислени прогнози, без да е изрично програмирано.

Това е подполе на AI, което се занимава с изграждане на системи, които могат да се учат от данни. Целта е компютрите да се учат сами, без човешка намеса.

Има три основни категории в машинното обучение.

  • Учене под наблюдение
  • Учене без надзор
  • Учене с подсилване

Учене под наблюдение

При контролираното обучение, етикетираните данни за обучение се използват за създаване на модели или машинно обучение чрез извличане на модела или функцията. Данните се състоят от независими променливи, често известни като предиктори, и зависима променлива (целеви етикет). Компютърът се опитва да изведе функцията от етикетирани данни и да екстраполира резултата от невиждани преди това данни.

Неконтролирано обучение

В този случай няма обучение, тъй като компютърът открива скрития модел, без да използва етикетирани данни. За да идентифицират модели, тези алгоритми вместо това се учат въз основа на това колко близо или колко далеч са характеристиките една от друга.

Обучение за укрепване

Обучението с подсилване е процес на максимизиране на възнаграждението чрез предприемане на действие. Това са целево ориентирани алгоритми, които се учат как да постигнат цел чрез опит.

Фигура 1–2 обяснява всички категории и подкатегории.

Учене под наблюдение

Обучението от етикетирани данни се нарича контролирано обучение, като има два вида: регресия и класификация.

  1. Регресия

Регресията е техника за статистическо прогнозно моделиране, която намира връзката между зависимата променлива и независимите променливи. Регресията се използва, когато зависимата променлива е непрекъсната; прогнозата може да приеме произволна числена стойност.

По-долу са няколкото регресионни алгоритми, широко използвани в индустрията. Нека навлезем в теорията, за да разберем по-добре тези алгоритми.

  • Линейна регресия
  • Дърво на решенията
  • Случайна гора
  • Опорно-векторни машини
  • GBM
  • XGBOOST
  • ADABOOST
  • LightGBM

2. Класификация

Класификацията е техника за контролирано машинно обучение, при която зависимата или изходящата променлива е категорична. Например spam/ham, churn/not churn и т.н.

  • В двоичната класификация е или да, или не. Трети вариант няма. Например, клиентът може да напусне или да не напусне даден бизнес.
  • При многокласова класификация, обозначената променлива може да бъде многокласова, например продуктова категоризация на уебсайт за електронна търговия.

По-долу са няколкото класификационни алгоритми, широко използвани в индустрията.

  • Логистична регресия
  • Дърво на решенията
  • Случайна гора
  • Опорно-векторна машина
  • GBM
  • XGBoost
  • AdaBoost
  • LightGBM

Нека разгледаме накратко всеки от тези алгоритми.

Линейна регресия

Регресията е най-често използваният термин в анализите и науката за данни. Той улавя връзката между целевата функция и независимите характеристики. И се използва, когато искате да предвидите непрекъсната стойност. Фигура 1–3 демонстрира как работи линейната регресия.

На фигура 1–3 точките са нанесени по оста x и оста y. Целта е да се намери връзката между x и y чрез начертаване на оптимална линия близо до всички точки на равнината (минимизиране на грешката). Наклонът на линията се получава от следното уравнение 1–1.

Y = зависима променлива

X = независима променлива

A0 = пресичане

A1 = коефициент на X

Например,

В уравнението 1–2 ние формираме връзка между височината и теглото с възрастта. Като се има предвид височината и теглото, можете да изчислите възрастта.

В линейната регресия има малко предположения.

  • Винаги трябва да има линейна връзка между зависимите променливи и независимите променливи.
  • Данните трябва да се разпространяват нормално.
  • Не трябва да има колинеарност между независими променливи. Мултиколинеарността се отнася до силна линейна връзка между независими променливи. Тези корелирани променливи действат като излишни и трябва да бъдат третирани.
  • Има хомоскедастичност, което означава, че дисперсията на грешките трябва да бъде постоянна във времето. Дисперсията не трябва да е по-висока за по-високи изходни стойности и по-ниска за по-ниски изходни стойности.
  • Термините за грешка не трябва да имат никаква корелация помежду си.

След като изградите модела, искате да знаете колко добре се представя моделът. За да направите това, можете да използвате показатели.

  • R-квадрат (R2 ) е най-широко използваният показател за изчисляване на точността на линейната регресия. Стойността R2 показва как дисперсията на зависимите променливи се обяснява чрез независими променливи. R-квадрат варира от 0 до 1.
  • Средноквадратичната грешка (RMSE) показва мярката на дисперсията на прогнозираните стойности от действителните стойности.

Логистична регресия

Обсъдихме как да предвидим числена стойност с помощта на линейна регресия. Но също така срещаме проблеми с класификацията, при които зависимите променливи са двоични класове като да или не, 1 или 0, вярно или невярно и т.н. В такъв случай трябва да използвате логистична регресия, която е алгоритъм за класификация. Логистичната регресия е разширена версия на линейната регресия, но ние използваме дневник на шансовете, за да ограничим зависимата променлива между нула и едно. Следната е логическата функция.

(p/1 — p) е съотношението на шансовете. B0 е константа. B е коефициентът. Фигура 1–4 показва как работи логистичната регресия.

Сега нека да разгледаме как да оценим модел на класификация.

  • Точността е броят правилни прогнози, разделен на общия брой прогнози. Стойностите са между 0 и 1 и за да ги преобразувате в процент, умножете отговора по 100. Но разглеждането само на точността като параметър за оценка не е идеалното нещо. Например, можете да получите много висока точност, ако данните са небалансирани.
  • Матрица на объркване е кръстосана таблица между действителни и прогнозирани класове. Можете да го използвате за двоична и многокласова класификация.

Фигура 1–5 представлява матрица на объркване.

За да имам ясно разбиране на тази матрица на объркване, нека да я обясня със забавен пример.

Тук ще разгледаме пример за тест за бременност, при който действително бременна жена и дебел мъж се консултират с лекар, а резултатите от теста са дадени на фигурата по-долу 1–6.

TP (Истински положителен): Жената е бременна и се предполага, че е бременна. Тук P представлява положителна прогноза, а T показва, че нашата прогноза всъщност е вярна.

FP (фалшиво положително): Предполага се, че дебел мъж е бременен, което всъщност е невярно. Тук P представлява положителна прогноза, а F показва, че нашата прогноза всъщност е невярна. Това също се нарича грешка от тип I.

FN (False Negative): Жена, която действително е бременна, се предвижда като небременна. Тук N представлява отрицателна прогноза, а F показва, че нашата прогноза всъщност е невярна. Това също се нарича грешка от тип II.

TN (True Negative): Предполага се, че дебел мъж не е бременен. Тук N представлява отрицателна прогноза, а T показва, че нашата прогноза всъщност е вярна.

В матрицата на объркването диагоналните елементи (TP и TN) винаги представляват правилните класификации, а елементите, различни от диагонала, представляват неправилни класификации.

  • ROC крива: Кривата на работната характеристика на приемника (ROC) е показател за оценка за задачи за класификация. Графиката на ROC крива има фалшив положителен процент по оста x и истински положителен процент по оста y. Той казва колко силно се различават класовете, когато праговете са разнообразни. Колкото по-висока е стойността на площта под ROC кривата, толкова по-висока е предсказващата сила. Фигура 1–7 показва ROC кривата.

Линейната и логистичната регресия са традиционни начини за правене на неща, които използват статистика за прогнозиране на зависимата променлива. Но има няколко недостатъка на тези алгоритми. По-долу са описани някои от тях.

  • Статистическото моделиране трябва да отговаря на допусканията, обсъдени по-рано. Ако те не са удовлетворени, моделите няма да бъдат надеждни и задълбочени произволни прогнози.
  • Тези алгоритми са изправени пред предизвикателства, когато данните и целевата функция са нелинейни. Сложните модели са трудни за декодиране.
  • Данните трябва да са чисти (липсващите стойности и отклоненията трябва да бъдат третирани).

Има други усъвършенствани концепции за машинно обучение като дърво на решенията, произволна гора, SVM и невронни мрежи за преодоляване на тези ограничения.

Следващата ми публикация ще бъде върху понятия като Случайна гора, SVM и Невронни мрежи.

В заключение, тази публикация предоставя общ преглед на машинното обучение, обработката на естествен език, дълбокото обучение и изкуствения интелект, като подчертава техните различия и взаимовръзки в рамките на по-широката парадигма на ИИ. Той хвърли светлина върху основните концепции и приложения на контролираното обучение, неконтролираното обучение и обучението с подсилване, подчертавайки тяхното значение в моделите на обучение за правене на прогнози, откриване на модели и постигане на цели.

Продължавайки напред, аз съм развълнуван да продължа да споделям такова информативно и проницателно съдържание на седмична база. Като навлизам по-дълбоко в сферата на изкуствения интелект, машинното обучение и науката за данните, имам за цел да предоставя на читателите ценни знания и да вдъхновя по-нататъшно изследване в тези области. Препоръчвам ви да се свържете с мен в LinkedIn, за да бъдете в течение и да участвате в стимулиращи дискусии.

Благодаря ви, че се присъединихте към мен в това пътуване и очаквам с нетърпение да се свържа с вас и да предоставям по-ангажиращо съдържание в бъдеще.

Следвайте ме в Medium и аплодирайте тази история, за да ме насърчите да пиша още такива истории.

За мен

Фокусиран съм върху машинното обучение и дълбокото обучение. Можете да се свържете с мен от Medium и Linkedin

Моят уебсайт: https://manojkumarhs.netlify.app

Благодаря ви