Публикации по тематике spark-dataframe

Публикации по теме 'spark-dataframe'

Scala #8: Искра: DataFrames

Узнайте, как использовать Spark DataFrames Набор данных — это набор данных, распределенных по нескольким компьютерам. Наборы данных обладают преимуществами как RDD (строгая типизация и возможность использования мощных лямбда-функций), так и оптимизированного механизма выполнения Spark SQL. Наборы данных можно создавать из объектов JVM и управлять ими с помощью функциональных преобразований. API набора данных доступен в Scala и Java, но не в Python. Однако из-за динамической природы..

Вопросы по теме 'spark-dataframe'

pyspark dataframe, groupby и вычисление дисперсии столбца

Я хотел бы сгруппировать кадр данных pyspark и вычислить дисперсию определенного столбца. Для среднего это довольно легко и может быть сделано так from pyspark.sql import functions as func...

13052 просмотров

28.09.2022

Spark JDBC DataFrame со столбцом TIMESTAMP(3)

У меня есть таблица MySQL со столбцом TIMESTAMP(3) , которую я хочу использовать как Spark DataFrame. Драйвер MySQL JDBC не может прочитать столбец TIMESTAMP(3) . Есть ли конфигурация или эффективный способ указать свой собственный Encoder для...

1084 просмотров

mysql apache-spark jdbc spark-dataframe

04.03.2024

Модульные тестовые примеры операций с кадрами данных Pyspark

Я написал некоторый код на python с контекстом sql, т.е. pyspark для выполнения некоторых операций с csv путем преобразования их в фреймы данных pyspark (операции df, такие как предварительная обработка, переименование имен столбцов, создание нового...

2751 просмотров

python unit-testing pyspark-sql spark-dataframe

17.04.2024

Как взорвать колонны?

После: val df = Seq((1, Vector(2, 3, 4)), (1, Vector(2, 3, 4))).toDF("Col1", "Col2") У меня есть этот DataFrame в Apache Spark: +------+---------+ | Col1 | Col2 | +------+---------+ | 1 |[2, 3, 4]| | 1 |[2, 3, 4]|...

24994 просмотров

apache-spark dataframe spark-dataframe

02.02.2024

Очистить данные кэша искр

Я использовал cache () и persist () в DataFrame во всем своем приложении. И я хочу знать, нужно ли мне вызывать unpersist () для каждого фрейма данных, который я кэшировал, чтобы освободить всю память и диск, которые были заняты, когда моя...

1964 просмотров

apache-spark apache-spark-sql spark-dataframe

21.05.2024

Определить искру udf путем отражения строки

Я пытаюсь определить udf в spark (2.0) из строки, содержащей определение функции scala. Вот фрагмент: val universe: scala.reflect.runtime.universe.type = scala.reflect.runtime.universe import universe._ import scala.reflect.runtime.currentMirror...

1934 просмотров

apache-spark scala scala-reflect udf spark-dataframe

23.05.2024

DataFrame: добавьте столбец в фрейм данных и вставьте соответствующее имя файла в этот столбец.

Как добавить столбец в фрейм данных и вставить имя файла в столбец? Мне удалось удалить заголовки и преобразовать их в фрейм данных, используя следующий код: У меня есть 2 файла, как показано ниже: file1.csv: name:file1 dept: hr id,name,age...

127 просмотров

apache-spark apache-spark-sql scala spark-dataframe

08.01.2024

Фильтр Spark 2.0 с использованием пользовательской функции после самостоятельного присоединения

Мне нужно отфильтровать кадр данных Spark, используя мою собственную определяемую пользователем функцию. Мой кадр данных считывается из базы данных с использованием соединения jdbc, а затем проходит операцию самосоединения в искре перед фильтрацией....

695 просмотров

python apache-spark pyspark spark-dataframe

11.12.2022

Spark: эквивалент zipwithindex в кадре данных

Предполагая, что у меня есть следующий кадр данных: dummy_data = [('a',1),('b',25),('c',3),('d',8),('e',1)] df = sc.parallelize(dummy_data).toDF(['letter','number']) И я хочу создать следующий кадр данных:...

5748 просмотров

python apache-spark pyspark spark-dataframe

11.02.2024

Не могу получить доступ к временной таблице Spark 2.0 от beeline

Со Spark 1.5.1 я уже мог получить доступ к временным таблицам spark-shell от Beeline с помощью Thrift Server. Я смог сделать это, прочитав ответы на связанные вопросы в Stackoverflow. Однако после обновления до Spark 2.0 я больше не вижу временные...

550 просмотров

apache-spark apache-spark-sql spark-dataframe

10.11.2022

Кодировщик[Row] в Scala Spark

Я пытаюсь выполнить простую карту на Dataset[Row] ( DataFrame ) в Spark 2.0.0. Что-то простое, как это val df: DataSet[Row] = ... df.map { r: Row => r } Но компилятор жалуется, что я не передаю неявный аргумент Encoder[Row] функции...

2393 просмотров

apache-spark-sql scala spark-dataframe

01.02.2024

Spark Dataframe: как агрегировать числовые и номинальные столбцы

1298 просмотров

apache-spark dataframe scala spark-dataframe

29.10.2023

Преобразование Hive Sql в Spark Sql

Я хочу преобразовать свой Hive Sql в Spark Sql, чтобы проверить производительность запроса. Вот мой Hive Sql. Может ли кто-нибудь предложить мне, как преобразовать Hive Sql в Spark Sql. SELECT split(DTD.TRAN_RMKS,'/')[0] AS TRAB_RMK1,...

6454 просмотров

apache-spark apache-spark-sql spark-streaming spark-dataframe

15.01.2024

Возможные причины разницы в производительности между двумя очень похожими фреймами данных Spark

Я работаю над улучшением производительности некоторых операций Spark для механизма рекомендаций, прототип которого я создаю. Я обнаружил существенные различия в производительности между DataFrames, которые я использую. Ниже приведены результаты...

2233 просмотров

apache-spark pyspark spark-dataframe

20.11.2022

Ошибка записи кадра данных в avro в искре: NoSuchElementException

Я пытаюсь сохранить фрейм данных в файле avro в spark, но если не получается только с одним фреймом данных. Код кажется правильным, потому что он отлично работает с другими фреймами данных и даже с подмножеством одного и того же фрейма данных:...

923 просмотров

apache-spark pyspark pyspark-sql spark-dataframe

08.12.2022

Spark: как использовать вложенные данные из разных фреймов данных для поиска соответствия (Scala)

У меня есть "doorsDF" var DataFrame следующим образом (упрощенно): +-----+-----+-----+------+ | door| x| y| usage| +-----+-----+-----+------+ | a| 32| 14| 5| | b| 28| 53| 1| | c| 65| 94| 23| | d| 68|...

399 просмотров

apache-spark apache-spark-sql scala apache-spark-mllib spark-dataframe

19.12.2023

Результат вычитания JavaRDD отличается, если данные считываются с диска или находятся в памяти

Я испытываю странное поведение, когда пытаюсь использовать вычитание JavaRDD для сравнения 2 кадров данных. Вот что я делаю: я пытаюсь сравнить, равны ли 2 DataFrame (A, B), преобразуя их в JavaRDD, а затем вычитая A из B и B из A. Если они равны...

287 просмотров

apache-spark spark-dataframe

19.10.2022

Фильтровать кадр данных по значению, которое НЕ присутствует в столбце другого кадра данных

Немного ударился головой об этом, и я подозреваю, что ответ очень прост. Учитывая два фрейма данных, я хочу отфильтровать первый, где значения в одном столбце отсутствуют в столбце другого фрейма данных. Я хотел бы сделать это, не прибегая к...

9282 просмотров

apache-spark apache-spark-sql scala spark-dataframe

19.02.2024

Как автоматизировать создание StructType для передачи RDD в DataFrame

Я хочу сохранить RDD как файл паркета. Для этого я передаю RDD в DataFrame , а затем использую структуру для сохранения DataFrame в виде файла паркета: val aStruct = new StructType(Array(StructField("id",StringType,nullable = true),...

641 просмотров

apache-spark scala rdd spark-dataframe

28.05.2024

pyspark: получить уникальные элементы в каждом столбце фрейма данных

У меня есть искровой фрейм данных, содержащий 1 миллион строк и 560 столбцов. Мне нужно найти количество уникальных элементов в каждом столбце фрейма данных. Я написал следующий код для достижения этой цели, но он застревает и требует слишком много...

2646 просмотров

pyspark spark-dataframe

26.03.2024

Публикации по теме 'spark-dataframe'

Scala #8: Искра: DataFrames

Вопросы по теме 'spark-dataframe'

Похожие вопросы