Вопросы по теме 'pyspark-dataframes'
Функция разделения Pyspark на часы
Скриншот кода
root
|-- address: string (nullable = true)
|-- attributes: map (nullable = true)
| |-- key: string
| |-- value: string (valueContainsNull = true)
|-- business_id: string (nullable = true)
|-- categories: string...
156 просмотров
schedule
20.10.2022
Pyspark: присоединитесь к 2 фреймворкам данных, чтобы получать только новые записи из 2-го фрейма данных (историзация)
У меня есть 2 фрейма данных df1 и df2. Я хочу, чтобы результат этого фрейма был таким: 1. Возьмите все записи df1. 2. Возьмите только новые записи из df2 (записи, которых нет в df1) 3. Создайте новый фрейм данных этой логики
Примечание....
137 просмотров
schedule
30.03.2024
сглаживание массива структуры в pyspark
У меня есть файл XML, преобразованный в фрейм данных с использованием пакета spark-xml. Фрейм данных имеет следующую структуру:
root
|-- results: struct (nullable = true)
| |-- result: struct (nullable = true)
| | |-- categories:...
3604 просмотров
schedule
22.10.2022
Как мы можем использовать функцию плотности_rank() в pyspark?
Я запускаю скрипт pyspark, в котором я запускаю sql-запрос и создаю фрейм данных. В sql-запросе есть функция плотности_rank(). Из-за этого запрос занимает слишком много времени для полного выполнения.
Есть ли способ быстро выполнить запрос или мы...
1446 просмотров
schedule
30.09.2022
Выбор данных из 100 таблиц в AWS Glue/PySpark
У меня есть каталог из 100 таблиц в каталоге AWS Glue формата:
user_1
user_2
...
user_100
Каждая таблица имеет такой формат:
| id | user_id | date | expense |
|----|---------|----------|---------|
| 1 | 1 | 20200521 | 200...
197 просмотров
schedule
09.06.2024
Дата в миллисекундах «ГГГГ-ММ-ДД чч:мм:сс.ССС» для данных Pyspark из Hive
У меня есть поле даты, хранящееся в виде строки в таблицах HIVE в следующем формате:
YYYY-MM-DD hh:mm:ss.SSS
Например:
2020-01-20 07:41:21.86754
Но мы наблюдаем следующее поведение:
Когда мы выбираем столбец в PySpark как...
1775 просмотров
schedule
04.06.2024
Проблема с вычислением оконной функции pyspark с помощью метода avg
У меня есть входной фрейм данных, как показано ниже:
partner_id|month_id|value1 |value2
1001 | 01 |10 |20
1002 | 01 |20 |30
1003 | 01 |30 |40
1001 | 02 |40 |50
1002 | 02 |50...
90 просмотров
schedule
01.04.2024
Как извлечь имя столбца и типы данных из Glue Dynamic Dataframe?
Я пытаюсь извлечь имена столбцов и типы данных из динамического фрейма Glue и хотел использовать их в Spark sql. Например:
persons = glueContext.create_dynamic_frame.from_catalog(
database="legislators",...
526 просмотров
schedule
19.09.2022
сюжетная визуализация не работает в ядре Pyspark на ноутбуке EMR Jupyterhub
Я пытаюсь построить графики, используя plotly на ноутбуке EMR Jupyterhub, однако графики не отображаются в ядре Pyspark. (Примечание: ядро Python отлично отображает график)
Пример кода, который я пытаюсь:
data_canada =...
416 просмотров
schedule
28.11.2023
Вычислить пропорцию значений в группах
Я пытаюсь вычислить долю определенного значения, встречающегося в определенном столбце в подгруппах.
Пример фрейма данных
pdf = pd.DataFrame({
'id': [1, 1, 1, 1, 2, 2, 2, 3, 3, 3],
'letter': ['L', 'A', 'L', 'L', 'L', 'L', 'L', 'A', 'L',...
40 просмотров
schedule
28.11.2022