Публикации по теме 'data-engineering'
5 способов повысить вашу продуктивность в качестве инженера данных
Верните свое время, чтобы написать больше кода и решений для данных!
Вы всегда чувствуете, что не используете свое время продуктивно? Ты не один!
Многие инженеры данных сталкиваются с трудностями, пытаясь максимизировать свою производительность и достичь совершенства, на которое, как они знают, они способны. Но не бойтесь, этот пост в блоге поможет вам.
Узнайте, как повысить свою карьеру инженера данных, чтобы превзойти своих коллег, освоив эти пять основных методов повышения..
3 варианта использования оператора SQL Case When
Объясняется с примерами
Проще говоря, оператор CASE WHEN оценивает заданные условия и возвращает результаты на основе этой оценки.
Мы можем использовать его для получения новых столбцов из существующих. Но есть и другие случаи, когда CASE WHEN пригодится для решения сложных задач.
Что мы узнаем из этой статьи:
Используйте CASE WHEN для получения новых столбцов Используйте CASE WHEN в GROUP BY Используйте CASE WHEN при расчете агрегаций на основе производных..
Суммируйте веб-страницы в десяти строках кода с помощью Unstructured + LangChain
Вам когда-нибудь приходилось читать множество документов только для того, чтобы быть в курсе последних событий по теме? Возможность быстро обобщать документы — это одна из задач, которую вы можете выполнить с минимальными усилиями благодаря нашей библиотеке.
В этом посте мы покажем вам, как легко суммировать содержимое веб-страниц с помощью unstructured , langchain и OpenAI.
Весь приведенный ниже код можно найти в следующей блокноте Colab .
Подготовка информации
Прежде..
Главный набор данных о COVID-19, которого вы так долго ждали
Пример использования инженерии данных для исследователей COVID-19
Исследователи, надеющиеся использовать общедоступные наборы данных о вирусе sars-cov-2 (широко известном под названием COVID-19), в настоящее время имеют множество вариантов для точек данных. Несмотря на то, что разнообразие доступных данных дает огромное количество информации, ключевой проблемой является то, что данные не хранятся в одном центральном месте, а поддерживаются множеством частных и публичных источников...
Озера транзакционных данных — Сравнение Apache Iceberg, Apache Hudi и Delta Lake
Введение
Одним из наиболее важных решений при создании озера данных является выбор формата, в котором будут храниться данные, поскольку он может существенно повлиять на производительность, удобство использования и совместимость системы. Тщательно продумав формат хранения данных, мы можем расширить функциональность и…
Концепции для инженеров данных: медленно меняющееся измерение (SCD)
Вы, вероятно, уже используете его, но не знаете!
В этой серии я представляю несколько важных концепций, о которых должны знать новые инженеры данных. Другие темы, о которых я говорил на данный момент: ✅ Моделирование данных ✅ CDC ✅ Идемпотентность ✅ ETL x ELT x EL ✅ Архитектуры данных Kappa x Lamda
«Как начать работу с Postman API Test Automation: руководство для начинающих»
Автоматизация тестирования Postman API для начинающих
Тестирование API и автоматизация с помощью Postman API стали важной частью разработки программного обеспечения, поэтому тестирование API стало важным навыком для разработчиков и тестировщиков. В этом курсе Валентайн Деспо научит вас, как использовать Postman для написания и автоматизации тестов API. Этот курс охватывает все, от основ тестирования API до тонкостей автоматизации этих тестов.
Обзор курса Переменные Скрипты Отладка..