Публикации по теме 'data-engineering'


Как хранить исторические данные гораздо эффективнее
Практическое руководство по использованию PySpark для хранения до 0,01% строк DataFrame без потери какой-либо информации. В эпоху, когда компании и организации собирают больше данных, чем когда-либо прежде, наборы данных имеют тенденцию накапливать миллионы ненужных строк, которые не содержат никакой новой или ценной информации. В этой статье мы сосредоточимся на важном аспекте управления данными: удалении строк в наборе данных, если они не приносят никакой дополнительной пользы, с..

Простой скрипт на Python, который позволяет мне экономить более 20 тысяч долларов в год
Как использовать Python для преобразования электронной таблицы бюджета в динамическую функцию Python. Лучшее применение Python: экономия денег В 2022 году я осознал: несмотря на наличие банковского приложения и трекера расходов (Mint) , мы с женой никогда сознательно…

Как: реализация деревьев решений в Python с помощью Scikit-Learn (часть 3)
В этом сообщении блога мы рассмотрим пошаговое руководство по реализации деревьев решений в Python с использованием библиотеки scikit-learn. Возьмем соответствующий пример: набор данных Iris, классика в области машинного обучения, который содержит измерения для 150 цветков ирисов трех разных видов. Прежде чем мы начнем, убедитесь, что у вас установлены необходимые библиотеки. Вы можете сделать это с помощью pip, установщика пакетов Python. Откройте командную строку (или терминал) и..

Почему вам нужно начать изучать TabPy
TabPy — это расширение аналитики от Tableau, которое позволяет пользователям выполнять сценарии Python и сохранять функции с помощью Tableau. С помощью TabPy мы можем запускать Python Script на лету и отображать результаты в виде визуализации. Также можно управлять данными, отправляемыми в TabPy, взаимодействуя с рабочим листом и панелью управления Tableau с помощью параметров.

Расширение возможностей сельского хозяйства с помощью науки о данных и дронов
Роль науки о данных в сельском хозяйстве имеет решающее значение. Это дает фермерам и заинтересованным сторонам возможность получать информацию на основе данных для принятия обоснованных решений. Приложения включают прогнозирование урожайности, выявление болезней, точное земледелие и оптимизацию цепочки поставок. Анализируя исторические данные и данные в реальном времени, наука о данных помогает оптимизировать орошение, внесение удобрений и борьбу с вредителями. Предложения приводят к..

🎯Задание Pyspark: анализ данных о продажах в электронной коммерции
🎯Задание Pyspark: Анализ данных о продажах в электронной коммерции 🔎Справочная информация: Вы работаете в компании электронной коммерции, и они предоставили вам набор данных, содержащий информацию об их продажах. Ваша задача — выполнять различные преобразования данных с помощью PySpark для получения аналитической информации. 📊Пример данных: | идентификатор_заказа | идентификатор_клиента | дата_заказа | идентификатор_продукта | количество | цена |..

Советы начинающим дата-инженерам.
Советы начинающим дата-инженерам. Я наткнулся на несколько интересных вопросов на нескольких форумах, таких как интервью, общие обсуждения и вебинары. Думал поставить свой дубль- Вопрос: Кто такой инженер данных и чем он занимается? Ответ: Инженер данных — это технический специалист, отвечающий за проектирование, создание, тестирование и обслуживание системы данных. Они отвечают за выявление последних тенденций в наборах данных и создание эффективных алгоритмов, чтобы сделать данные..