Вопросы по теме 'pyspark-dataframes'

Функция разделения Pyspark на часы
Скриншот кода root |-- address: string (nullable = true) |-- attributes: map (nullable = true) | |-- key: string | |-- value: string (valueContainsNull = true) |-- business_id: string (nullable = true) |-- categories: string...
156 просмотров

Pyspark: присоединитесь к 2 фреймворкам данных, чтобы получать только новые записи из 2-го фрейма данных (историзация)
У меня есть 2 фрейма данных df1 и df2. Я хочу, чтобы результат этого фрейма был таким: 1. Возьмите все записи df1. 2. Возьмите только новые записи из df2 (записи, которых нет в df1) 3. Создайте новый фрейм данных этой логики Примечание....
137 просмотров

сглаживание массива структуры в pyspark
У меня есть файл XML, преобразованный в фрейм данных с использованием пакета spark-xml. Фрейм данных имеет следующую структуру: root |-- results: struct (nullable = true) | |-- result: struct (nullable = true) | | |-- categories:...
3604 просмотров

Как мы можем использовать функцию плотности_rank() в pyspark?
Я запускаю скрипт pyspark, в котором я запускаю sql-запрос и создаю фрейм данных. В sql-запросе есть функция плотности_rank(). Из-за этого запрос занимает слишком много времени для полного выполнения. Есть ли способ быстро выполнить запрос или мы...
1446 просмотров

Выбор данных из 100 таблиц в AWS Glue/PySpark
У меня есть каталог из 100 таблиц в каталоге AWS Glue формата: user_1 user_2 ... user_100 Каждая таблица имеет такой формат: | id | user_id | date | expense | |----|---------|----------|---------| | 1 | 1 | 20200521 | 200...
197 просмотров

Дата в миллисекундах «ГГГГ-ММ-ДД чч:мм:сс.ССС» для данных Pyspark из Hive
У меня есть поле даты, хранящееся в виде строки в таблицах HIVE в следующем формате: YYYY-MM-DD hh:mm:ss.SSS Например: 2020-01-20 07:41:21.86754 Но мы наблюдаем следующее поведение: Когда мы выбираем столбец в PySpark как...
1775 просмотров

Проблема с вычислением оконной функции pyspark с помощью метода avg
У меня есть входной фрейм данных, как показано ниже: partner_id|month_id|value1 |value2 1001 | 01 |10 |20 1002 | 01 |20 |30 1003 | 01 |30 |40 1001 | 02 |40 |50 1002 | 02 |50...
90 просмотров

Как извлечь имя столбца и типы данных из Glue Dynamic Dataframe?
Я пытаюсь извлечь имена столбцов и типы данных из динамического фрейма Glue и хотел использовать их в Spark sql. Например: persons = glueContext.create_dynamic_frame.from_catalog( database="legislators",...
526 просмотров

сюжетная визуализация не работает в ядре Pyspark на ноутбуке EMR Jupyterhub
Я пытаюсь построить графики, используя plotly на ноутбуке EMR Jupyterhub, однако графики не отображаются в ядре Pyspark. (Примечание: ядро ​​​​Python отлично отображает график) Пример кода, который я пытаюсь: data_canada =...
416 просмотров

Вычислить пропорцию значений в группах
Я пытаюсь вычислить долю определенного значения, встречающегося в определенном столбце в подгруппах. Пример фрейма данных pdf = pd.DataFrame({ 'id': [1, 1, 1, 1, 2, 2, 2, 3, 3, 3], 'letter': ['L', 'A', 'L', 'L', 'L', 'L', 'L', 'A', 'L',...
40 просмотров