🎯Предизвикателство в Pyspark: Анализиране на данни за продажби от електронна търговия

🎯Pyspark Challenge:
Анализиране на данните за продажбите в електронната търговия

🔎История:
Вие работите за компания за електронна търговия и те са ви предоставили набор от данни, съдържащ информация за техните продажби. Вашата задача е да извършвате различни трансформации на данни с помощта на PySpark, за да генерирате прозрения.

📊Примерни данни:

| ID_на_поръчка | customer_id | дата_на_поръчка | product_id | количество | цена |
|----------|-------------|------------|----- -------|----------|-------|
| 1 | 101 | 01.07.2023 | A | 2 | 10 |
| 2 | 102 | 01.07.2023 | B | 3 | 15 |
| 3 | 101 | 2023-07-02 | A | 1 | 10 |
| 4 | 103 | 2023-07-02 | C | 2 | 20 |
| 5 | 102 | 03.07.2023 | A | 1 | 10 |

🎯Задачи за предизвикателства:
1. Заредете набора от данни в PySpark DataFrame.
2. Изчислете общия приход за всяка поръчка.
3. Намерете най-продаваните продукти (по общо продадено количество) в набора от данни.
4. Изчислете средното количество и цена на поръчка.
5. Определете общия приход за всеки клиент.
6. Идентифицирайте датата с най-висок общ приход.

Това предизвикателство обхваща различни аспекти на трансформирането на данни с помощта на DataFrame API на PySpark.

✍️Напишете своето решение в полето за коментари

👉Следвайте за още: Sandeep Suthrame

#pyspark #databricks #dataengineering #dataanalytics #datascience

from pyspark.sql import SparkSession
from pyspark.sql.functions import col, sum, avg, max

# Create a Spark session
spark = SparkSession.builder.appName("ECommerceAnalysis").getOrCreate()

# Load the dataset
data = [
    (1, 101, "2023-07-01", "A", 2, 10),
    (2, 102, "2023-07-01", "B", 3, 15),
    (3, 101, "2023-07-02", "A", 1, 10),
    (4, 103, "2023-07-02", "C", 2, 20),
    (5, 102, "2023-07-03", "A", 1, 10)
]

columns = ["order_id", "customer_id", "order_date", "product_id", "quantity", "price"]
df = spark.createDataFrame(data, columns)

# Task 2: Calculate total revenue for each order
df = df.withColumn("revenue", col("quantity") * col("price"))

# Task 3: Top-selling products
top_products = df.groupBy("product_id").agg(sum("quantity").alias("total_quantity_sold"))
top_products = top_products.orderBy(col("total_quantity_sold").desc()).limit(3)

# Task 4: Calculate average quantity and price per order
avg_quantity_price = df.groupBy("order_id").agg(avg("quantity").alias("avg_quantity"), avg("price").alias("avg_price"))

# Task 5: Total revenue per customer
revenue_per_customer = df.groupBy("customer_id").agg(sum("revenue").alias("total_revenue"))

# Task 6: Date with highest total revenue
highest_revenue_date = df.groupBy("order_date").agg(sum("revenue").alias("total_revenue"))
highest_revenue_date = highest_revenue_date.orderBy(col("total_revenue").desc()).limit(1)

# Show results
top_products.show()
avg_quantity_price.show()
revenue_per_customer.show()
highest_revenue_date.show()

# Stop the Spark session
spark.stop()

🎯Предизвикателство в Pyspark: Анализиране на данни за продажби от електронна търговия

Подобни въпроси