Публикации по теме 'data-cleaning'


Качество данных в машинном обучении: как оценить и улучшить?
Поскольку в основе машинного обучения лежат данные, производительность всех алгоритмов машинного обучения неизбежно напрямую зависит от качества входных данных. Поговорка Garbage in-Garbage out применима и к машинному обучению: использование данных плохого качества может ввести в заблуждение процесс обучения и привести к неточным моделям, увеличению времени обучения и, в конечном итоге, плохим результатам. С другой стороны, алгоритмы машинного обучения, обученные на точных, чистых и..

Смойте свои личные данные
Очистка данных для машинного обучения с помощью стиральной машины Что, если бы вы могли стереть всю личную информацию из своих текстовых данных? Стиральная машина данных упрощает задачу. Холодная стирка удаляет данные, которые идентифицируют отдельных людей, и, когда вы повышаете температуру, удаляются также компании и местоположения. Эта статья является последним выпуском серии Concur Labs о конфиденциальности данных. Ранее мы писали о прототипе картографического приложения,..

Предварительная обработка данных: раскрытие магии машинного обучения с помощью чистых, преобразованных и организованных…
Предварительная обработка данных похожа на волшебную палочку машинного обучения! Это важный первый шаг, когда мы преобразуем необработанные, беспорядочные данные из различных источников в чистую, организованную и значимую информацию, с которой могут работать наши модели машинного обучения. Представьте, что вы наводите порядок в своей комнате перед тем, как приступить к творческому проекту — вы ведь не хотели бы работать в грязном помещении, верно? Во время предварительной обработки мы..

Как изменить код интервальной шкалы в R
Простой способ очистить анкету и данные измерений Если вы используете R для анализа данных, скорее всего, вы можете столкнуться с ситуацией, когда вы работаете с интервальными данными. Часто полезно иметь возможность инвертировать данные на шкале интервалов. Вот как это сделать, с пошаговыми примерами. Если вы хотите, чтобы весь код, показанный в этой статье, был в одном скрипте, ознакомьтесь с сутью GitHub в конце. Работа с данными опроса Представьте, что вы психолог, который..

Очистка данных и предварительная обработка в машинном обучении
Очистка и предварительная обработка данных являются важными этапами машинного обучения, которые обеспечивают качество данных, улучшают производительность модели и позволяют делать точные прогнозы. В этой статье представлен всесторонний обзор различных методов предварительной обработки данных, включая обработку отсутствующих данных, нормализацию и стандартизацию данных, масштабирование функций, работу с категориальными данными и другие важные этапы предварительной обработки. Примеры..

Оценка моделей автоматического распознавания речи за пределами глобальных показателей — Учебное пособие с использованием OpenAI…
tl;dr Глобальных метрик недостаточно, чтобы понять, хорошо ли работает ваша модель автоматического распознавания речи в вашем случае использования. Есть три шага, которые помогут вам лучше понять, насколько надежна ваша модель: Проверьте, какие функции вызывают сбои модели (проверка одномерных/двумерных функций) Проверьте, какие срезы данных (комбинации многомерных функций) вызывают сбои модели. Проверьте, какие скрытые срезы данных вызывают сбои модели на основе встраивания..

От хаоса к порядку: предварительная обработка данных для овладения машинным обучением
Предварительная обработка данных похожа на приготовление блюда: если вы не почистите, не очистите и не нарежете ингредиенты, у вас не получится очень красивое блюдо. Продолжая кулинарную аналогию, мы собрали наши ингредиенты в нашем исследовательском анализе данных , и теперь пришло время начать готовить их для нашего блюда. В этой статье мы узнаем, как превратить этот беспорядок необработанных данных в хорошо организованный и уточненный набор данных, готовый для ваших моделей...