Публикации по теме 'data-engineering'


5 способов повысить вашу продуктивность в качестве инженера данных
Верните свое время, чтобы написать больше кода и решений для данных! Вы всегда чувствуете, что не используете свое время продуктивно? Ты не один! Многие инженеры данных сталкиваются с трудностями, пытаясь максимизировать свою производительность и достичь совершенства, на которое, как они знают, они способны. Но не бойтесь, этот пост в блоге поможет вам. Узнайте, как повысить свою карьеру инженера данных, чтобы превзойти своих коллег, освоив эти пять основных методов повышения..

3 варианта использования оператора SQL Case When
Объясняется с примерами Проще говоря, оператор CASE WHEN оценивает заданные условия и возвращает результаты на основе этой оценки. Мы можем использовать его для получения новых столбцов из существующих. Но есть и другие случаи, когда CASE WHEN пригодится для решения сложных задач. Что мы узнаем из этой статьи: Используйте CASE WHEN для получения новых столбцов Используйте CASE WHEN в GROUP BY Используйте CASE WHEN при расчете агрегаций на основе производных..

Суммируйте веб-страницы в десяти строках кода с помощью Unstructured + LangChain
Вам когда-нибудь приходилось читать множество документов только для того, чтобы быть в курсе последних событий по теме? Возможность быстро обобщать документы — это одна из задач, которую вы можете выполнить с минимальными усилиями благодаря нашей библиотеке. В этом посте мы покажем вам, как легко суммировать содержимое веб-страниц с помощью unstructured , langchain и OpenAI. Весь приведенный ниже код можно найти в следующей блокноте Colab . Подготовка информации Прежде..

Главный набор данных о COVID-19, которого вы так долго ждали
Пример использования инженерии данных для исследователей COVID-19 Исследователи, надеющиеся использовать общедоступные наборы данных о вирусе sars-cov-2 (широко известном под названием COVID-19), в настоящее время имеют множество вариантов для точек данных. Несмотря на то, что разнообразие доступных данных дает огромное количество информации, ключевой проблемой является то, что данные не хранятся в одном центральном месте, а поддерживаются множеством частных и публичных источников...

Озера транзакционных данных — Сравнение Apache Iceberg, Apache Hudi и Delta Lake
Введение Одним из наиболее важных решений при создании озера данных является выбор формата, в котором будут храниться данные, поскольку он может существенно повлиять на производительность, удобство использования и совместимость системы. Тщательно продумав формат хранения данных, мы можем расширить функциональность и…

Концепции для инженеров данных: медленно меняющееся измерение (SCD)
Вы, вероятно, уже используете его, но не знаете! В этой серии я представляю несколько важных концепций, о которых должны знать новые инженеры данных. Другие темы, о которых я говорил на данный момент: ✅ Моделирование данных ✅ CDC ✅ Идемпотентность ✅ ETL x ELT x EL ✅ Архитектуры данных Kappa x Lamda

«Как начать работу с Postman API Test Automation: руководство для начинающих»
Автоматизация тестирования Postman API для начинающих Тестирование API и автоматизация с помощью Postman API стали важной частью разработки программного обеспечения, поэтому тестирование API стало важным навыком для разработчиков и тестировщиков. В этом курсе Валентайн Деспо научит вас, как использовать Postman для написания и автоматизации тестов API. Этот курс охватывает все, от основ тестирования API до тонкостей автоматизации этих тестов. Обзор курса Переменные Скрипты Отладка..