Публикации по тематике data-engineering

Публикации по теме 'data-engineering'

Увлекательное начало работы с AWS SageMaker

Привет, начинающие пользователи AWS, еще один простой, но очень полезный пример, который я придумал для AWS Sagemaker. Этот пост снова будет считаться введением в AWS SageMaker, как и мой предыдущий пост, но я планирую испачкать руки, пытаясь развернуть одну простую модель мл в качестве более технической, включая мой личный опыт работы с AWS SageMaker очень скоро. В своем предыдущем блоге я попытался дать краткое представление о том, для чего предназначен AWS SageMaker и почему он так..

Расшифровка «ЭЛ» в «ЭЛТ»

I. Современный стек данных Современный стек данных в 2023 году будет наполнен специальными инструментами для каждого компонента процесса обработки данных: от «E(xtract)» до «L(load)» и «T(ranform)». Хотя инструменты «T» являются относительно новыми (привет, dbt!), продукты «EL» на протяжении многих лет пользуются постоянным признанием пользователей, от SSIS до Airbyte. Хотя ситуация, конечно, несколько преувеличена (см. выше), современный стек данных по-прежнему сводится к..

Проект инженерии данных — Розничный магазин, часть 3 — Хранилище данных

Введение Это третья часть серии «Проект инженерии данных — розничный магазин». В последних двух статьях я извлек данные о виски с помощью парсинга веб-страниц, разработал базу данных MySQL, которая используется в качестве основного источника данных организации, и загрузил в нее данные. Текущая база данных выглядит так: Эта часть будет посвящена жизненно важному компоненту архитектуры данных компании: хранилищу данных. Проще говоря, хранилище данных — это еще одна реляционная..

Обработка пропущенных значений в Python: краткое руководство

Обработка пропущенных значений в Python: краткое руководство Отсутствие данных является распространенной проблемой при анализе данных. Давайте рассмотрим, как обрабатывать пропущенные значения в DataFrame Pandas с помощью Python. Вот несколько приемов заполнения пропущенных значений: 1. Заполнение непрерывных данных: При работе с непрерывными числовыми данными важно правильно заполнить пропущенные значения. Вот как заполнить пропущенные значения в столбце имя_столбца, используя среднее..

Еженедельник по инженерии данных № 30

История представляет собой кросс-публикацию из еженедельника Data Engineering Weekly. Пожалуйста, подпишитесь на информационный бюллетень Data Engineering, чтобы быть в курсе последних обновлений. www.dataengineeringweekly.com Добро пожаловать в 30-й выпуск информационного бюллетеня по инженерии данных. Релиз этой недели представляет собой новый набор статей, посвященных независимой от схемы платформе аналитики журналов Uber, системе поиска моделей с открытым исходным кодом Google,..

Непрерывный прием данных с помощью Snowpipe в Snowflake для Amazon S3

В этом посте мы обсудим одну уникальную функцию Snowflake, а именно Snowpipe, которая позволяет загружать данные из файлов, как только они становятся доступными на этапе. Это означает, что вы можете загружать данные из файлов микропакетами, делая их доступными для пользователей в течение нескольких минут, вместо того, чтобы вручную выполнять операторы копирования по расписанию для загрузки больших пакетов. В этом посте приведены инструкции по запуску автоматической загрузки данных..

Как я приручила пикси 🧚

В своей основной работе я инженер данных. Но в свободное время я приручаю волшебных существ. Это история о том, как все началось семь недель назад… $ npm i -g pxi # short version for the impatient Семь недель назад я пришел на работу, и передо мной стояла та же повторяющаяся задача, с которой я сталкивался несколько месяцев назад: внесение небольших изменений в большие файлы данных, запись новых файлов данных, внесение небольших изменений в… вы поняли. Вы знаете, я..