Вопросы по теме 'apache-spark-dataset'

Набор данных Spark и java.sql.Date
Допустим, у меня есть Spark Dataset вот так: scala> import java.sql.Date scala> case class Event(id: Int, date: Date, name: String) scala> val ds = Seq(Event(1, Date.valueOf("2016-08-01"), "ev1"), Event(2, Date.valueOf("2018-08-02"),...
3369 просмотров

Функции передачи Spark при использовании наборов данных, большого класса Java и синглтона
Я прочитал этот пост здесь: https://spark.apache.org/docs/latest/programming-guide.html (см. Передача функций в Spark), но в моем случае используется типизированный набор данных с моими классами case. Я пытаюсь использовать объект singleton для...
278 просмотров

WrappedArray из WrapedArray в массив java
У меня есть столбец с установленным типом, и я использую collect_set() API набора данных spark, который возвращает обернутый массив обернутого массива. Мне нужен один массив из всех значений вложенных обернутых массивов. Как я могу это сделать?...
7784 просмотров

Как сгенерировать сложный XML с помощью Spark-Xml
Я пытаюсь сгенерировать сложный xml из моей книги JavaRDd‹ > и обзоров JavaRdd‹ > Как я могу объединить эти два для создания XML ниже? <xml> <library> <books> <book>...
2379 просмотров

Нажатие фильтра паркета не работает с API набора данных Spark
Вот пример кода, который я запускаю. Создание тестового набора данных паркета со столбцом mod в качестве раздела. scala> val test = spark.range(0 , 100000000).withColumn("mod", $"id".mod(40)) test: org.apache.spark.sql.DataFrame = [id:...
4154 просмотров

Как объединить два столбца набора данных в искре
У меня есть набор данных искры, подобный этому: > df.show() +------+------+ | No1 | No2 | +------+------+ | 001 | null | | 002 | 002 | | 003 | 004 | | null | 005 | +------+------+ Я хочу получить новый столбец No3 , содержащий...
335 просмотров
schedule 28.01.2024

Как создать набор данных из CSV, который не имеет заголовка и имеет более 150 столбцов, используя scala spark
У меня есть csv, который мне нужно прочитать как набор данных. CSV имеет 140 столбцов и не имеет заголовка. Я создал схему с StructType(Seq(StructFiled(...), Seq(StructFiled(...), ...)) и кодом для чтения, который выглядит следующим образом:...
40 просмотров

Что лучше среди RDD, Dataframe, Dataset для выполнения столбцовых операций avro в искре?
У нас есть вариант использования, когда нам нужно выполнить некоторые преобразования столбцов в наборах данных avro. До сих пор мы выполняли задания MR, а теперь хотим изучить искру. Я просматриваю некоторые учебные пособия и не уверен, следует ли...
74 просмотров

Разница в разделах Spark SQL Shuffle
Я пытаюсь понять Spark Sql Shuffle Partitions, для которого по умолчанию установлено значение 200. Данные выглядят следующим образом, за ними следует количество разделов, созданных для двух случаев. scala> flightData2015.show(3)...
240 просмотров

Spark: Как и RDD, наборы данных и кадры данных также неизменны?
В Apache Spark RDD неизменяемы. Как насчет наборов данных и фреймов данных? Являются ли они изменяемыми или неизменяемыми (поскольку основная структура по-прежнему является RDD)?
71 просмотров