Публикации по тематике data-preprocessing

Публикации по теме 'data-preprocessing'

Очистка данных и предварительная обработка в машинном обучении

Очистка и предварительная обработка данных являются важными этапами машинного обучения, которые обеспечивают качество данных, улучшают производительность модели и позволяют делать точные прогнозы. В этой статье представлен всесторонний обзор различных методов предварительной обработки данных, включая обработку отсутствующих данных, нормализацию и стандартизацию данных, масштабирование функций, работу с категориальными данными и другие важные этапы предварительной обработки. Примеры..

От хаоса к порядку: предварительная обработка данных для овладения машинным обучением

Предварительная обработка данных похожа на приготовление блюда: если вы не почистите, не очистите и не нарежете ингредиенты, у вас не получится очень красивое блюдо. Продолжая кулинарную аналогию, мы собрали наши ингредиенты в нашем исследовательском анализе данных , и теперь пришло время начать готовить их для нашего блюда. В этой статье мы узнаем, как превратить этот беспорядок необработанных данных в хорошо организованный и уточненный набор данных, готовый для ваших моделей...

Как избежать ловушек плохого разделения данных в машинном обучении

Цель После более чем двухлетнего опыта работы я столкнулся с разными коллегами на рабочем месте, которые допускали ошибки при разбиении данных из-за невнимательности во время экспериментов, что приводило к проблемам с результатами анализа. Поэтому я хотел бы написать статью, чтобы напомнить себе и другим, чтобы избежать подобных ошибок. Если вы уже знакомы с процессом машинного обучения, можете сразу перейти к разделу о подводных камнях. руководство Выполнение правильного разделения..

Масштабирование функций — Нормализация или стандартизация?

В последнем посте мы говорили о методах кодирования для преобразования категориальных данных в числовые данные при предварительной обработке набора данных. Если вы пропустили этот пост и хотели бы узнать больше о кодировании, вы можете найти его в моем профиле. Сегодня мы поговорим о еще одном важном методе предварительной обработки данных: масштабировании признаков! Масштабирование объектов — это метод стандартизации объекта в наборе данных в ограниченном диапазоне. Некоторые..

Удивительный способ сгладить временной ряд — «Решение уравнения теплопроводности!

С приложением для сглаживания данных финансового рынка При разработке моделей машинного обучения для распознавания образов временных рядов мне нравится предварительно обрабатывать данные, чтобы они были более плавными. Иногда это помогает ускорить сходимость, поскольку алгоритм может лучше понимать любые тенденции или особенности. У меня есть…

Обработка данных MIMIC-III и eICU с использованием Google Big Query

Обработка данных MIMIC-III и eICU с использованием Google Big Query Как можно использовать Google Big Query для выполнения типичных шагов обработки данных, предшествующих обучению и настройке любой модели машинного обучения. В этой статье я расскажу вам, как можно использовать Google Big Query для выполнения типичных шагов обработки данных, предшествующих обучению и настройке любой модели машинного обучения. В качестве примера мы будем использовать медицинский вариант обучения..

Обнаружение выбросов в машинном обучении

Что такое выбросы? Выбросы — это точки данных, которые значительно отличаются от остальных точек данных в наборе данных. Выбросы увеличивают дисперсию в наборе данных, что, в свою очередь, приводит к снижению статистической мощности. Поэтому очень важно идентифицировать эти выбросы и относиться к ним соответствующим образом. Причины возникновения выбросов Выбросы могут возникать по разным причинам. Некоторые из наиболее распространенных причин включают в себя: Ошибка ввода..