Публикации по теме 'data-engineering'


Инжиниринг данных — Неделя 4
Неделя 4 — Курс Zoomcamp по инженерии данных: Аналитическая инженерия Примечание . Содержание этого поста основано на видеороликах курса, моем понимании и поиске, а также справочной документации. На этой неделе мы узнаем об инженерной аналитике. В предыдущие недели мы загружали данные такси Нью-Йорка в облачное хранилище Google, создавали таблицы BigQuery и выполняли к ним некоторые запросы. На этой неделе мы узнаем, как использовать DBT для аналитики и трансформации ( T в ELT). Что..

Гамильтон + ДБТ за 5 минут
Краткое пошаговое руководство по совместному использованию этих двух проектов с открытым исходным кодом В этом посте мы собираемся показать вам, как легко запустить Гамильтон внутри задачи DBT . Используя захватывающий новый API Python от DBT, мы можем плавно сочетать две платформы. Hamilton — это декларативный микрофреймворк для описания потоков данных в Python. Например, он отлично подходит для выражения потока преобразований функций и их связи с подгонкой моделей машинного..

Сценарии Python для автоматизации: подключение к базе данных Oracle с помощью Cx Oracle
Как я использую Cx Oracle и несколько других библиотек Python для автоматизации небольших задач ETL Я использовал модуль расширения cx_Oracle Python для доступа к моей базе данных Oracle, и благодаря ему я смог автоматизировать большинство своих небольших задач. В Интернете доступна документация, предоставленная Oracle, которая может помочь вам получить прямой доступ к базе данных Oracle, но в этой статье я покажу, как я использую Cx Oracle и несколько других библиотек Python для..

JSON и PostgreSQL: использование JSON для имитации преимуществ хранилища NoSQL
Иногда вам нужна база данных NoSQL, но у вас есть только PostgreSQL. Разработчики программного обеспечения и инженеры данных часто упускают из виду собственный тип данных JSON, который поддерживают многие базы данных SQL (например, PostgreSQL). Это ошибка; Возможность хранить JSON в таблице SQL меняет правила игры.

5 полезных онлайн-инструментов для программистов и специалистов по данным
Откройте для себя эти 5 веб-сайтов, которые предоставляют полезные инструменты, которые помогут вам в разработке программного обеспечения и обработке данных. Работая над разработкой программного обеспечения или с данными, вы можете столкнуться с множеством различных синтаксисов и форматов.

Проще говоря, наука о данных
Часто меня спрашивали, чем я сейчас занят, на что я всегда отвечал: «Темы Data Science». Люди, которые задают вопрос, всегда должны следовать за вопросом «ЧТО ЭТО?» Для технических специалистов наука о данных может быть модным словом, но правда в том, что многим это неизвестно. Наука о данных широка. Это междисциплинарная область, в которой используются математика и статистика, инженерия данных, машинное обучение, информатика и знания в области разработки программного обеспечения для..

Докер в простых шагах
Docker — один из многих инструментов, который приобрел большую популярность в последние годы. Итак, очевидно, что нам может быть интересно узнать, что это такое и почему оно сейчас набирает такую ​​популярность. Короче говоря! Используя Docker, вы можете упаковать весь свой код и связанную среду в виде контейнера и обеспечить его большую переносимость. Что это значит? Это означает, что вы можете без проблем обмениваться результатами своей работы с коллегами и избегать классических..