Публикации по теме 'data-engineering'
5 продвинутых концепций SQL, которые вы должны знать в 2022 году
Наука о данных
5 продвинутых концепций SQL, которые вы должны знать в 2022 году
Освойте эти экономящие время расширенные SQL-запросы уже сегодня
Стань профессионалом в SQL! 🏆
SQL или язык структурированных запросов — обязательный инструмент для всех, кто работает с данными.
С ростом объема данных растет и потребность в квалифицированных специалистах по данным. Недостаточно только знания продвинутых концепций SQL, но вы должны быть в состоянии эффективно применять их в своей..
Кодовые блоки исследовательского анализа данных, используемые инженерами данных
"В бесконечность и дальше!"
Поиск приемов для более быстрого анализа EDA — ключевой шаг к тому, чтобы стать специалистом по данным-единорогам. Kaggle — это платформа для соревнований по науке о данных, которая открывает доступ к различным кодам Python, R и pyspark для разработки моделей машинного обучения и глубокого обучения. Процесс EDA довольно сложен для инженеров по данным: выявление закономерностей в данных, кодирование схем типов данных, обработка пропущенных значений,..
«Pandas Way» — это функциональный API
С Pandas ≥ 1.0 функциональный API стал мощным и должен стать новым стандартом.
Кто-то только что указал мне на пакет pyjanitor , который я на самом деле не считаю очень полезным с Pandas ›= 1.0 , потому что функциональный API для Pandas в наши дни достаточно мощный. Полезны примеры, которые разработчики pyjanitor приводят в своем README . Первый…
Учебное пособие по AWS Glue Data Engineering с нуля до профессионального уровня [часть 1] — 2023 г.
Здравствуйте, читатели, добро пожаловать в мою новую серию руководств!
Инжиниринг данных в настоящее время находится в верхней части списка приоритетов каждой ИТ-компании. Как вы знаете, существует множество разработок, таких как LLM, чат-боты, резюме и НЛП. Но прежде чем мы начнем создавать проекты в этих областях, нам нужно понять инженерию данных. У нас есть ПБ данных, и они расширяются с каждым годом.
На рынке доступно несколько сред обработки данных, но в настоящее время..
Руководящие принципы построения эффективных масштабируемых конвейеров данных для Machine…
Сараванакумар Субраманиам , главный инженер данных, Тоби Сайкс , глобальный руководитель отдела инженерии данных
Столкнувшись с постоянно растущим набором новых инструментов и технологий, высокоэффективные аналитические группы все больше полагаются на инженеров по обработке данных. Создание конвейеров обработки производственных данных и управление ими - сложный процесс, масштабируемый без систематического подхода.
Чтобы помочь справиться с этой сложностью, мы собрали наши..
Обработка данных MIMIC-III и eICU с использованием Google Big Query
Обработка данных MIMIC-III и eICU с использованием Google Big Query
Как можно использовать Google Big Query для выполнения типичных шагов обработки данных, предшествующих обучению и настройке любой модели машинного обучения.
В этой статье я расскажу вам, как можно использовать Google Big Query для выполнения типичных шагов обработки данных, предшествующих обучению и настройке любой модели машинного обучения. В качестве примера мы будем использовать медицинский вариант обучения..
🐍 Признаки того, что вы опытный разработчик Python 🐍
Как узнать, что вы достигли статуса эксперта? Вот некоторые признаки, на которые стоит обратить внимание! 🔍
Python — удивительный язык, который можно использовать для самых разных приложений. Python может делать все, от создания веб-приложений до анализа данных и машинного обучения.
Однако, чтобы по-настоящему освоить Python, нужно стать экспертом. 🚀
🔥 Эффективность кода:
Опытные разработчики Python знают, как писать оптимизированный и эффективный код. Например, вместо..