Публикации по теме 'spark-dataframe'
Scala #8: Искра: DataFrames
Узнайте, как использовать Spark DataFrames
Набор данных — это набор данных, распределенных по нескольким компьютерам. Наборы данных обладают преимуществами как RDD (строгая типизация и возможность использования мощных лямбда-функций), так и оптимизированного механизма выполнения Spark SQL. Наборы данных можно создавать из объектов JVM и управлять ими с помощью функциональных преобразований. API набора данных доступен в Scala и Java, но не в Python. Однако из-за динамической природы..
Вопросы по теме 'spark-dataframe'
pyspark dataframe, groupby и вычисление дисперсии столбца
Я хотел бы сгруппировать кадр данных pyspark и вычислить дисперсию определенного столбца. Для среднего это довольно легко и может быть сделано так
from pyspark.sql import functions as func...
13052 просмотров
schedule
28.09.2022
Spark JDBC DataFrame со столбцом TIMESTAMP(3)
У меня есть таблица MySQL со столбцом TIMESTAMP(3) , которую я хочу использовать как Spark DataFrame. Драйвер MySQL JDBC не может прочитать столбец TIMESTAMP(3) .
Есть ли конфигурация или эффективный способ указать свой собственный Encoder для...
1084 просмотров
schedule
04.03.2024
Модульные тестовые примеры операций с кадрами данных Pyspark
Я написал некоторый код на python с контекстом sql, т.е. pyspark для выполнения некоторых операций с csv путем преобразования их в фреймы данных pyspark (операции df, такие как предварительная обработка, переименование имен столбцов, создание нового...
2751 просмотров
schedule
17.04.2024
Как взорвать колонны?
После:
val df = Seq((1, Vector(2, 3, 4)), (1, Vector(2, 3, 4))).toDF("Col1", "Col2")
У меня есть этот DataFrame в Apache Spark:
+------+---------+
| Col1 | Col2 |
+------+---------+
| 1 |[2, 3, 4]|
| 1 |[2, 3, 4]|...
24994 просмотров
schedule
02.02.2024
Очистить данные кэша искр
Я использовал cache () и persist () в DataFrame во всем своем приложении. И я хочу знать, нужно ли мне вызывать unpersist () для каждого фрейма данных, который я кэшировал, чтобы освободить всю память и диск, которые были заняты, когда моя...
1964 просмотров
schedule
21.05.2024
Определить искру udf путем отражения строки
Я пытаюсь определить udf в spark (2.0) из строки, содержащей определение функции scala. Вот фрагмент:
val universe: scala.reflect.runtime.universe.type = scala.reflect.runtime.universe
import universe._
import scala.reflect.runtime.currentMirror...
1934 просмотров
schedule
23.05.2024
DataFrame: добавьте столбец в фрейм данных и вставьте соответствующее имя файла в этот столбец.
Как добавить столбец в фрейм данных и вставить имя файла в столбец? Мне удалось удалить заголовки и преобразовать их в фрейм данных, используя следующий код:
У меня есть 2 файла, как показано ниже:
file1.csv:
name:file1
dept: hr
id,name,age...
127 просмотров
schedule
08.01.2024
Фильтр Spark 2.0 с использованием пользовательской функции после самостоятельного присоединения
Мне нужно отфильтровать кадр данных Spark, используя мою собственную определяемую пользователем функцию. Мой кадр данных считывается из базы данных с использованием соединения jdbc, а затем проходит операцию самосоединения в искре перед фильтрацией....
695 просмотров
schedule
11.12.2022
Spark: эквивалент zipwithindex в кадре данных
Предполагая, что у меня есть следующий кадр данных:
dummy_data = [('a',1),('b',25),('c',3),('d',8),('e',1)]
df = sc.parallelize(dummy_data).toDF(['letter','number'])
И я хочу создать следующий кадр данных:...
5748 просмотров
schedule
11.02.2024
Не могу получить доступ к временной таблице Spark 2.0 от beeline
Со Spark 1.5.1 я уже мог получить доступ к временным таблицам spark-shell от Beeline с помощью Thrift Server. Я смог сделать это, прочитав ответы на связанные вопросы в Stackoverflow.
Однако после обновления до Spark 2.0 я больше не вижу временные...
550 просмотров
schedule
10.11.2022
Кодировщик[Row] в Scala Spark
Я пытаюсь выполнить простую карту на Dataset[Row] ( DataFrame ) в Spark 2.0.0. Что-то простое, как это
val df: DataSet[Row] = ...
df.map { r: Row => r }
Но компилятор жалуется, что я не передаю неявный аргумент Encoder[Row] функции...
2393 просмотров
schedule
01.02.2024
Spark Dataframe: как агрегировать числовые и номинальные столбцы
Я использую кадры данных Spark и имею кадр данных df , похожий на этот:
id: String | amount: Double | donor: String
--------------------------------------------
1 | 50 | Mary
2 |100 | Michael
1 |...
1298 просмотров
schedule
29.10.2023
Преобразование Hive Sql в Spark Sql
Я хочу преобразовать свой Hive Sql в Spark Sql, чтобы проверить производительность запроса. Вот мой Hive Sql. Может ли кто-нибудь предложить мне, как преобразовать Hive Sql в Spark Sql.
SELECT split(DTD.TRAN_RMKS,'/')[0] AS TRAB_RMK1,...
6454 просмотров
schedule
15.01.2024
Возможные причины разницы в производительности между двумя очень похожими фреймами данных Spark
Я работаю над улучшением производительности некоторых операций Spark для механизма рекомендаций, прототип которого я создаю. Я обнаружил существенные различия в производительности между DataFrames, которые я использую. Ниже приведены результаты...
2233 просмотров
schedule
20.11.2022
Ошибка записи кадра данных в avro в искре: NoSuchElementException
Я пытаюсь сохранить фрейм данных в файле avro в spark, но если не получается только с одним фреймом данных. Код кажется правильным, потому что он отлично работает с другими фреймами данных и даже с подмножеством одного и того же фрейма данных:...
923 просмотров
schedule
08.12.2022
Spark: как использовать вложенные данные из разных фреймов данных для поиска соответствия (Scala)
У меня есть "doorsDF" var DataFrame следующим образом (упрощенно):
+-----+-----+-----+------+
| door| x| y| usage|
+-----+-----+-----+------+
| a| 32| 14| 5|
| b| 28| 53| 1|
| c| 65| 94| 23|
| d| 68|...
399 просмотров
schedule
19.12.2023
Результат вычитания JavaRDD отличается, если данные считываются с диска или находятся в памяти
Я испытываю странное поведение, когда пытаюсь использовать вычитание JavaRDD для сравнения 2 кадров данных.
Вот что я делаю: я пытаюсь сравнить, равны ли 2 DataFrame (A, B), преобразуя их в JavaRDD, а затем вычитая A из B и B из A. Если они равны...
287 просмотров
schedule
19.10.2022
Фильтровать кадр данных по значению, которое НЕ присутствует в столбце другого кадра данных
Немного ударился головой об этом, и я подозреваю, что ответ очень прост. Учитывая два фрейма данных, я хочу отфильтровать первый, где значения в одном столбце отсутствуют в столбце другого фрейма данных.
Я хотел бы сделать это, не прибегая к...
9282 просмотров
schedule
19.02.2024
Как автоматизировать создание StructType для передачи RDD в DataFrame
Я хочу сохранить RDD как файл паркета. Для этого я передаю RDD в DataFrame , а затем использую структуру для сохранения DataFrame в виде файла паркета:
val aStruct = new StructType(Array(StructField("id",StringType,nullable = true),...
641 просмотров
schedule
28.05.2024
pyspark: получить уникальные элементы в каждом столбце фрейма данных
У меня есть искровой фрейм данных, содержащий 1 миллион строк и 560 столбцов. Мне нужно найти количество уникальных элементов в каждом столбце фрейма данных. Я написал следующий код для достижения этой цели, но он застревает и требует слишком много...
2646 просмотров
schedule
26.03.2024