Публикации по темата data-preprocessing

Свързани публикации 'data-preprocessing'

Почистване и предварителна обработка на данни в машинното обучение

Почистването и предварителната обработка на данни са основни стъпки в машинното обучение, които гарантират качеството на данните, подобряват производителността на модела и позволяват точни прогнози. Тази статия предоставя изчерпателен преглед на различни техники за предварителна обработка на данни, включително обработка на липсващи данни, нормализиране и стандартизиране на данни, мащабиране на функции, работа с категорични данни и други важни стъпки за предварителна обработка. Включени..

Хаос по поръчка: Предварителна обработка на данни за овладяване на машинното обучение

Предварителната обработка на данни е като приготвянето на ястие – ако не почистите, обелите и нарежете съставките си, няма да получите много хубаво ястие. Продължавайки с кулинарната аналогия, ние събрахме нашите съставки в нашия „проучвателен анализ на данни“ и сега е време да започнем да ги приготвяме за нашето ястие. В тази статия ще научим как да превърнем тази бъркотия от необработени данни в добре организиран и прецизиран набор от данни, който е готов да захранва вашите модели...

Избягване на капаните на лошото разделяне на данни в машинното обучение

Цел След повече от две години трудов стаж се сблъсках с различни колеги на работното място, които направиха грешки при разделянето на данните си поради невнимание по време на експерименти, което доведе до проблеми с резултатите от анализа. Затова бих искал да напиша статия, за да напомня на себе си и на другите да избягват подобни грешки. Ако вече сте запознати с процеса на машинно обучение, можете да преминете към раздела за капаните. Насока Извършването на добро разделяне на данни е..

Мащабиране на функции — Нормализация или стандартизация?

В последната публикация говорихме за техники за кодиране за трансформиране на категорични данни в числени данни, докато обработваме предварително набора от данни. Ако сте пропуснали тази публикация и искате да научите повече за кодирането, можете да я намерите в моя профил. Днес ще говорим за друга важна техника при предварителната обработка на данните: мащабиране на функции! Мащабирането на характеристиките е техника за стандартизиране на характеристиките в набора от данни в..

Изненадващ начин за изглаждане на времева серия — Решаване на топлинното уравнение!

С приложение за изглаждане на данните на финансовия пазар Когато разработвам модели за машинно обучение за разпознаване на модели във времеви серии, обичам да обработвам предварително данните си, така че да са по-плавни. Това понякога помага за ускоряване на конвергенцията, тъй като алгоритъмът може да разбере по-добре всички тенденции или характеристики. Аз имам…

MIMIC-III и eICU обработка на данни с помощта на Google Big Query

MIMIC-III и eICU обработка на данни с помощта на Google Big Query Как Google Big Query може да се използва за извършване на типични стъпки за обработка на данни, предшестващи всяко обучение и монтиране на модел за машинно обучение. В тази статия ще ви разкажа как Google Big Query може да се използва за извършване на типични стъпки за обработка на данни, предшестващи всяко обучение и монтиране на модел за машинно обучение. Като пример ще използваме случая на медицинска употреба..

Откриване на отклонения в машинното обучение

Какво представляват отклоненията? Извънредните стойности са точките от данни, които са значително различни от останалите точки от данни в набора от данни. Извънредните стойности увеличават дисперсията в набора от данни, което от своя страна води до намаляване на статистическата мощност. Така че е много важно да идентифицирате тези извънредни стойности и да ги лекувате по съответния начин. Причини за възникване на Outliers Отклоненията могат да възникнат поради различни..