Вопросы по теме 'apache-spark-dataset'
Набор данных Spark и java.sql.Date
Допустим, у меня есть Spark Dataset вот так:
scala> import java.sql.Date
scala> case class Event(id: Int, date: Date, name: String)
scala> val ds = Seq(Event(1, Date.valueOf("2016-08-01"), "ev1"), Event(2, Date.valueOf("2018-08-02"),...
3369 просмотров
schedule
19.09.2022
Функции передачи Spark при использовании наборов данных, большого класса Java и синглтона
Я прочитал этот пост здесь: https://spark.apache.org/docs/latest/programming-guide.html (см. Передача функций в Spark), но в моем случае используется типизированный набор данных с моими классами case. Я пытаюсь использовать объект singleton для...
278 просмотров
schedule
12.01.2024
WrappedArray из WrapedArray в массив java
У меня есть столбец с установленным типом, и я использую collect_set() API набора данных spark, который возвращает обернутый массив обернутого массива. Мне нужен один массив из всех значений вложенных обернутых массивов. Как я могу это сделать?...
7784 просмотров
schedule
23.03.2024
Как сгенерировать сложный XML с помощью Spark-Xml
Я пытаюсь сгенерировать сложный xml из моей книги JavaRDd‹ > и обзоров JavaRdd‹ > Как я могу объединить эти два для создания XML ниже?
<xml>
<library>
<books>
<book>...
2379 просмотров
schedule
20.09.2022
Нажатие фильтра паркета не работает с API набора данных Spark
Вот пример кода, который я запускаю.
Создание тестового набора данных паркета со столбцом mod в качестве раздела.
scala> val test = spark.range(0 , 100000000).withColumn("mod", $"id".mod(40))
test: org.apache.spark.sql.DataFrame = [id:...
4154 просмотров
schedule
15.03.2024
Как объединить два столбца набора данных в искре
У меня есть набор данных искры, подобный этому:
> df.show()
+------+------+
| No1 | No2 |
+------+------+
| 001 | null |
| 002 | 002 |
| 003 | 004 |
| null | 005 |
+------+------+
Я хочу получить новый столбец No3 , содержащий...
335 просмотров
schedule
28.01.2024
Как создать набор данных из CSV, который не имеет заголовка и имеет более 150 столбцов, используя scala spark
У меня есть csv, который мне нужно прочитать как набор данных. CSV имеет 140 столбцов и не имеет заголовка. Я создал схему с StructType(Seq(StructFiled(...), Seq(StructFiled(...), ...)) и кодом для чтения, который выглядит следующим образом:...
40 просмотров
schedule
21.05.2024
Что лучше среди RDD, Dataframe, Dataset для выполнения столбцовых операций avro в искре?
У нас есть вариант использования, когда нам нужно выполнить некоторые преобразования столбцов в наборах данных avro. До сих пор мы выполняли задания MR, а теперь хотим изучить искру. Я просматриваю некоторые учебные пособия и не уверен, следует ли...
74 просмотров
schedule
07.06.2024
Разница в разделах Spark SQL Shuffle
Я пытаюсь понять Spark Sql Shuffle Partitions, для которого по умолчанию установлено значение 200. Данные выглядят следующим образом, за ними следует количество разделов, созданных для двух случаев.
scala> flightData2015.show(3)...
240 просмотров
schedule
17.12.2023
Spark: Как и RDD, наборы данных и кадры данных также неизменны?
В Apache Spark RDD неизменяемы. Как насчет наборов данных и фреймов данных? Являются ли они изменяемыми или неизменяемыми (поскольку основная структура по-прежнему является RDD)?
71 просмотров
schedule
07.04.2024