Публикации по теме 'data-engineering'
Как хранить исторические данные гораздо эффективнее
Практическое руководство по использованию PySpark для хранения до 0,01% строк DataFrame без потери какой-либо информации.
В эпоху, когда компании и организации собирают больше данных, чем когда-либо прежде, наборы данных имеют тенденцию накапливать миллионы ненужных строк, которые не содержат никакой новой или ценной информации. В этой статье мы сосредоточимся на важном аспекте управления данными: удалении строк в наборе данных, если они не приносят никакой дополнительной пользы, с..
Простой скрипт на Python, который позволяет мне экономить более 20 тысяч долларов в год
Как использовать Python для преобразования электронной таблицы бюджета в динамическую функцию Python.
Лучшее применение Python: экономия денег
В 2022 году я осознал: несмотря на наличие банковского приложения и трекера расходов (Mint) , мы с женой никогда сознательно…
Как: реализация деревьев решений в Python с помощью Scikit-Learn (часть 3)
В этом сообщении блога мы рассмотрим пошаговое руководство по реализации деревьев решений в Python с использованием библиотеки scikit-learn. Возьмем соответствующий пример: набор данных Iris, классика в области машинного обучения, который содержит измерения для 150 цветков ирисов трех разных видов.
Прежде чем мы начнем, убедитесь, что у вас установлены необходимые библиотеки. Вы можете сделать это с помощью pip, установщика пакетов Python. Откройте командную строку (или терминал) и..
Почему вам нужно начать изучать TabPy
TabPy — это расширение аналитики от Tableau, которое позволяет пользователям выполнять сценарии Python и сохранять функции с помощью Tableau. С помощью TabPy мы можем запускать Python Script на лету и отображать результаты в виде визуализации. Также можно управлять данными, отправляемыми в TabPy, взаимодействуя с рабочим листом и панелью управления Tableau с помощью параметров.
Расширение возможностей сельского хозяйства с помощью науки о данных и дронов
Роль науки о данных в сельском хозяйстве имеет решающее значение. Это дает фермерам и заинтересованным сторонам возможность получать информацию на основе данных для принятия обоснованных решений. Приложения включают прогнозирование урожайности, выявление болезней, точное земледелие и оптимизацию цепочки поставок. Анализируя исторические данные и данные в реальном времени, наука о данных помогает оптимизировать орошение, внесение удобрений и борьбу с вредителями. Предложения приводят к..
🎯Задание Pyspark: анализ данных о продажах в электронной коммерции
🎯Задание Pyspark: Анализ данных о продажах в электронной коммерции
🔎Справочная информация: Вы работаете в компании электронной коммерции, и они предоставили вам набор данных, содержащий информацию об их продажах. Ваша задача — выполнять различные преобразования данных с помощью PySpark для получения аналитической информации.
📊Пример данных:
| идентификатор_заказа | идентификатор_клиента | дата_заказа | идентификатор_продукта | количество | цена |..
Советы начинающим дата-инженерам.
Советы начинающим дата-инженерам.
Я наткнулся на несколько интересных вопросов на нескольких форумах, таких как интервью, общие обсуждения и вебинары. Думал поставить свой дубль-
Вопрос: Кто такой инженер данных и чем он занимается? Ответ: Инженер данных — это технический специалист, отвечающий за проектирование, создание, тестирование и обслуживание системы данных. Они отвечают за выявление последних тенденций в наборах данных и создание эффективных алгоритмов, чтобы сделать данные..