Публикации по теме 'data-engineering'


5 продвинутых концепций SQL, которые вы должны знать в 2022 году
Наука о данных 5 продвинутых концепций SQL, которые вы должны знать в 2022 году Освойте эти экономящие время расширенные SQL-запросы уже сегодня Стань профессионалом в SQL! 🏆 SQL или язык структурированных запросов — обязательный инструмент для всех, кто работает с данными. С ростом объема данных растет и потребность в квалифицированных специалистах по данным. Недостаточно только знания продвинутых концепций SQL, но вы должны быть в состоянии эффективно применять их в своей..

Кодовые блоки исследовательского анализа данных, используемые инженерами данных
"В бесконечность и дальше!" Поиск приемов для более быстрого анализа EDA — ключевой шаг к тому, чтобы стать специалистом по данным-единорогам. Kaggle — это платформа для соревнований по науке о данных, которая открывает доступ к различным кодам Python, R и pyspark для разработки моделей машинного обучения и глубокого обучения. Процесс EDA довольно сложен для инженеров по данным: выявление закономерностей в данных, кодирование схем типов данных, обработка пропущенных значений,..

«Pandas Way» — это функциональный API
С Pandas ≥ 1.0 функциональный API стал мощным и должен стать новым стандартом. Кто-то только что указал мне на пакет pyjanitor , который я на самом деле не считаю очень полезным с Pandas ›= 1.0 , потому что функциональный API для Pandas в наши дни достаточно мощный. Полезны примеры, которые разработчики pyjanitor приводят в своем README . Первый…

Учебное пособие по AWS Glue Data Engineering с нуля до профессионального уровня [часть 1] — 2023 г.
Здравствуйте, читатели, добро пожаловать в мою новую серию руководств! Инжиниринг данных в настоящее время находится в верхней части списка приоритетов каждой ИТ-компании. Как вы знаете, существует множество разработок, таких как LLM, чат-боты, резюме и НЛП. Но прежде чем мы начнем создавать проекты в этих областях, нам нужно понять инженерию данных. У нас есть ПБ данных, и они расширяются с каждым годом. На рынке доступно несколько сред обработки данных, но в настоящее время..

Руководящие принципы построения эффективных масштабируемых конвейеров данных для Machine…
Сараванакумар Субраманиам , главный инженер данных, Тоби Сайкс , глобальный руководитель отдела инженерии данных Столкнувшись с постоянно растущим набором новых инструментов и технологий, высокоэффективные аналитические группы все больше полагаются на инженеров по обработке данных. Создание конвейеров обработки производственных данных и управление ими - сложный процесс, масштабируемый без систематического подхода. Чтобы помочь справиться с этой сложностью, мы собрали наши..

Обработка данных MIMIC-III и eICU с использованием Google Big Query
Обработка данных MIMIC-III и eICU с использованием Google Big Query Как можно использовать Google Big Query для выполнения типичных шагов обработки данных, предшествующих обучению и настройке любой модели машинного обучения. В этой статье я расскажу вам, как можно использовать Google Big Query для выполнения типичных шагов обработки данных, предшествующих обучению и настройке любой модели машинного обучения. В качестве примера мы будем использовать медицинский вариант обучения..

🐍 Признаки того, что вы опытный разработчик Python 🐍
Как узнать, что вы достигли статуса эксперта? Вот некоторые признаки, на которые стоит обратить внимание! 🔍 Python — удивительный язык, который можно использовать для самых разных приложений. Python может делать все, от создания веб-приложений до анализа данных и машинного обучения. Однако, чтобы по-настоящему освоить Python, нужно стать экспертом. 🚀 🔥 Эффективность кода: Опытные разработчики Python знают, как писать оптимизированный и эффективный код. Например, вместо..