Цикъл на развитие на машинното обучение

Вероятно не е потвърден общият брой на цикъла на развитие. Но според моите проучвания открих донякъде 9 цикъл.

Те са:-

Поставете проблема в рамка
Събиране на данни
Предварителна обработка на данни
Проучвателен анализ на данни (EDA)
Характеристики Инженеринг и селекция
Обучение, оценка и подбор на модели
Внедряване на модела
Тестване
Оптимизиране.

Сега ще разберем всеки от тях един по един.

1. Поставете проблема в рамка:-

Изборът на метод за машинно обучение за внедряване на данни не е най-лесният процес. Важно е първо да разберете точния бизнес проблем и неговите цели. Например, разбирането на това, което трябва да се предвиди, и разбирането на потенциалните резултати е от решаващо значение.

Човек също трябва да знае какви данни трябва да се използват за обучение на модел, наред с други фактори. Такива съображения помагат при формулирането на проблем с машинно обучение. В тази статия ще разгледаме как да оформим правилно проблем с машинно обучение.

2. Събиране на данни: -

Събирането на данни е най-важната стъпка в решаването на всеки проблем с контролирано машинно обучение. Вашият текстов класификатор може да бъде толкова добър, колкото и наборът от данни, от който е изграден.

Ако нямате конкретен проблем, който искате да разрешите, и просто се интересувате от изследване на класификацията на текст като цяло, има много налични набори от данни с отворен код. От друга страна, ако се захващате с конкретен проблем, ще трябва да съберете необходимите данни. Много организации предоставят публични API за достъп до техните данни — например Twitter API или NY Times API. Може да успеете да ги използвате за проблема, който се опитвате да разрешите.

Ето някои важни неща, които трябва да запомните, когато събирате данни:

Ако използвате публичен API, разберете ограниченията на API, преди да ги използвате. Например, някои API задават ограничение за скоростта, с която можете да правите заявки.
Колкото повече примери за обучение (наричани примери в останалата част от това ръководство) имате, толкова по-добре. Това ще помогне на вашия модел да обобщи по-добре.
Уверете се, че броят на пробите за всеки клас или тема не е прекалено небалансиран. Това означава, че трябва да имате сравним брой проби във всеки клас.
Уверете се, че вашите проби адекватно покриват пространството от възможни входове, а не само обичайните случаи.

3. Предварителна обработка на данни: -

Предварителната обработка се отнася до трансформациите, приложени към нашите данни, преди да бъдат подавани към алгоритъма. Предварителната обработка на данни е техника, която се използва за преобразуване на необработените данни в чист набор от данни. С други думи, когато данните се събират от различни източници, те се събират в необработен формат, което не е приложимо за анализа.

4. Проучвателен анализ на данни (EDA): -

Проучвателен анализ на данни (EDA)е подход за анализ на данните с помощта на визуални техники. Използва се за откриване на тенденции, модели или за проверка на предположения с помощта на статистическо обобщение и графични представяния.

5. Характеристики Инженеринг и избор: -

Инженерингът на функции е стъпката на предварителна обработка на машинното обучение, която се използва за трансформиране на необработени данни във функции, които могат да се използват за създаване на прогнозен модел чрез машинно обучение или статистическо моделиране. Инженерингът на функции в машинното обучение има за цел да подобри производителността на моделите. В тази тема ще разберем подробностите за инженеринга на функции в машинното обучение.

6. Модел обучение, оценка и подбор: -

Съществена стъпка в работния процес на машинно обучение е изборът и оценката на модела. Стъпката на процеса, когато анализираме нашия модел, е тази. Ние решаваме какви стъпки да предприемем, за да подобрим този модел въз основа на по-значими статистически данни за ефективността. Модел, който се представя добре, и модел, който се представя изключително добре, обикновено се разделят от тази стъпка. Когато анализираме нашия модел, разбираме по-добре какво прогнозира точно и какво не, което ни позволява да подобрим неговата точност от 65% до повече от 80% или 90%.

7. Внедряване на модела: -

Процесът на интегриране на модел за машинно обучение във вече съществуваща производствена среда е известен като внедряване и ви позволява да използвате данни за вземане на полезни бизнес решения. Това може да бъде един от най-предизвикателните етапи от жизнения цикъл на машинното обучение и е един от последните. Често традиционните езици за изграждане на модели са несъвместими с ИТ системите на организацията, което изисква специалистите по данни и програмистите да отделят значително време и умствена сила за възстановяването им.

8. Тестване: -

Ще говорим за няколко метода за ефективно ML тестване. Ще откриете как да оценявате и тествате модели, да заобикаляте типичните пречки и много повече.

Софтуерното тестване обикновено включва:

Тестване на единици: Програмата е разделена на блокове и съставната единица на всеки блок се тества независимо.

Регресионен тест: За да се гарантира, че тестваният по-рано софтуер няма да се повреди неочаквано, те го покриват.

Тестове за интегриране:Този вид тестване разглежда как многото компоненти на програмата взаимодействат един с друг.

В допълнение, хората се придържат към набор от принципи, като например да не обединяват код, докато не бъдат преминати всички тестове, да тестват всички новодобавени кодови блокове и да пишат тестове за улавяне на грешки.

9. Оптимизиране: -

Оптимизацията е процесът, при който обучаваме модела итеративно, което води до оценка на максимална и минимална функция. Това е един от най-важните феномени в машинното обучение за постигане на по-добри резултати.

Основната цел на машинното обучение е да създаде модел, който се представя добре и дава точни прогнози в определен набор от случаи. За да постигнем това, се нуждаем от оптимизация на машинното обучение.