Публикации по теме 'spark-dataframe'


Scala #8: Искра: DataFrames
Узнайте, как использовать Spark DataFrames Набор данных — это набор данных, распределенных по нескольким компьютерам. Наборы данных обладают преимуществами как RDD (строгая типизация и возможность использования мощных лямбда-функций), так и оптимизированного механизма выполнения Spark SQL. Наборы данных можно создавать из объектов JVM и управлять ими с помощью функциональных преобразований. API набора данных доступен в Scala и Java, но не в Python. Однако из-за динамической природы..

Вопросы по теме 'spark-dataframe'

pyspark dataframe, groupby и вычисление дисперсии столбца
Я хотел бы сгруппировать кадр данных pyspark и вычислить дисперсию определенного столбца. Для среднего это довольно легко и может быть сделано так from pyspark.sql import functions as func...
13052 просмотров

Spark JDBC DataFrame со столбцом TIMESTAMP(3)
У меня есть таблица MySQL со столбцом TIMESTAMP(3) , которую я хочу использовать как Spark DataFrame. Драйвер MySQL JDBC не может прочитать столбец TIMESTAMP(3) . Есть ли конфигурация или эффективный способ указать свой собственный Encoder для...
1084 просмотров
schedule 04.03.2024

Модульные тестовые примеры операций с кадрами данных Pyspark
Я написал некоторый код на python с контекстом sql, т.е. pyspark для выполнения некоторых операций с csv путем преобразования их в фреймы данных pyspark (операции df, такие как предварительная обработка, переименование имен столбцов, создание нового...
2751 просмотров

Как взорвать колонны?
После: val df = Seq((1, Vector(2, 3, 4)), (1, Vector(2, 3, 4))).toDF("Col1", "Col2") У меня есть этот DataFrame в Apache Spark: +------+---------+ | Col1 | Col2 | +------+---------+ | 1 |[2, 3, 4]| | 1 |[2, 3, 4]|...
24994 просмотров
schedule 02.02.2024

Очистить данные кэша искр
Я использовал cache () и persist () в DataFrame во всем своем приложении. И я хочу знать, нужно ли мне вызывать unpersist () для каждого фрейма данных, который я кэшировал, чтобы освободить всю память и диск, которые были заняты, когда моя...
1964 просмотров

Определить искру udf путем отражения строки
Я пытаюсь определить udf в spark (2.0) из строки, содержащей определение функции scala. Вот фрагмент: val universe: scala.reflect.runtime.universe.type = scala.reflect.runtime.universe import universe._ import scala.reflect.runtime.currentMirror...
1934 просмотров

DataFrame: добавьте столбец в фрейм данных и вставьте соответствующее имя файла в этот столбец.
Как добавить столбец в фрейм данных и вставить имя файла в столбец? Мне удалось удалить заголовки и преобразовать их в фрейм данных, используя следующий код: У меня есть 2 файла, как показано ниже: file1.csv: name:file1 dept: hr id,name,age...
127 просмотров

Фильтр Spark 2.0 с использованием пользовательской функции после самостоятельного присоединения
Мне нужно отфильтровать кадр данных Spark, используя мою собственную определяемую пользователем функцию. Мой кадр данных считывается из базы данных с использованием соединения jdbc, а затем проходит операцию самосоединения в искре перед фильтрацией....
695 просмотров

Spark: эквивалент zipwithindex в кадре данных
Предполагая, что у меня есть следующий кадр данных: dummy_data = [('a',1),('b',25),('c',3),('d',8),('e',1)] df = sc.parallelize(dummy_data).toDF(['letter','number']) И я хочу создать следующий кадр данных:...
5748 просмотров

Не могу получить доступ к временной таблице Spark 2.0 от beeline
Со Spark 1.5.1 я уже мог получить доступ к временным таблицам spark-shell от Beeline с помощью Thrift Server. Я смог сделать это, прочитав ответы на связанные вопросы в Stackoverflow. Однако после обновления до Spark 2.0 я больше не вижу временные...
550 просмотров

Кодировщик[Row] в Scala Spark
Я пытаюсь выполнить простую карту на Dataset[Row] ( DataFrame ) в Spark 2.0.0. Что-то простое, как это val df: DataSet[Row] = ... df.map { r: Row => r } Но компилятор жалуется, что я не передаю неявный аргумент Encoder[Row] функции...
2393 просмотров
schedule 01.02.2024

Spark Dataframe: как агрегировать числовые и номинальные столбцы
Я использую кадры данных Spark и имею кадр данных df , похожий на этот: id: String | amount: Double | donor: String -------------------------------------------- 1 | 50 | Mary 2 |100 | Michael 1 |...
1298 просмотров

Преобразование Hive Sql в Spark Sql
Я хочу преобразовать свой Hive Sql в Spark Sql, чтобы проверить производительность запроса. Вот мой Hive Sql. Может ли кто-нибудь предложить мне, как преобразовать Hive Sql в Spark Sql. SELECT split(DTD.TRAN_RMKS,'/')[0] AS TRAB_RMK1,...
6454 просмотров

Возможные причины разницы в производительности между двумя очень похожими фреймами данных Spark
Я работаю над улучшением производительности некоторых операций Spark для механизма рекомендаций, прототип которого я создаю. Я обнаружил существенные различия в производительности между DataFrames, которые я использую. Ниже приведены результаты...
2233 просмотров
schedule 20.11.2022

Ошибка записи кадра данных в avro в искре: NoSuchElementException
Я пытаюсь сохранить фрейм данных в файле avro в spark, но если не получается только с одним фреймом данных. Код кажется правильным, потому что он отлично работает с другими фреймами данных и даже с подмножеством одного и того же фрейма данных:...
923 просмотров

Spark: как использовать вложенные данные из разных фреймов данных для поиска соответствия (Scala)
У меня есть "doorsDF" var DataFrame следующим образом (упрощенно): +-----+-----+-----+------+ | door| x| y| usage| +-----+-----+-----+------+ | a| 32| 14| 5| | b| 28| 53| 1| | c| 65| 94| 23| | d| 68|...
399 просмотров

Результат вычитания JavaRDD отличается, если данные считываются с диска или находятся в памяти
Я испытываю странное поведение, когда пытаюсь использовать вычитание JavaRDD для сравнения 2 кадров данных. Вот что я делаю: я пытаюсь сравнить, равны ли 2 DataFrame (A, B), преобразуя их в JavaRDD, а затем вычитая A из B и B из A. Если они равны...
287 просмотров
schedule 19.10.2022

Фильтровать кадр данных по значению, которое НЕ присутствует в столбце другого кадра данных
Немного ударился головой об этом, и я подозреваю, что ответ очень прост. Учитывая два фрейма данных, я хочу отфильтровать первый, где значения в одном столбце отсутствуют в столбце другого фрейма данных. Я хотел бы сделать это, не прибегая к...
9282 просмотров

Как автоматизировать создание StructType для передачи RDD в DataFrame
Я хочу сохранить RDD как файл паркета. Для этого я передаю RDD в DataFrame , а затем использую структуру для сохранения DataFrame в виде файла паркета: val aStruct = new StructType(Array(StructField("id",StringType,nullable = true),...
641 просмотров
schedule 28.05.2024

pyspark: получить уникальные элементы в каждом столбце фрейма данных
У меня есть искровой фрейм данных, содержащий 1 миллион строк и 560 столбцов. Мне нужно найти количество уникальных элементов в каждом столбце фрейма данных. Я написал следующий код для достижения этой цели, но он застревает и требует слишком много...
2646 просмотров
schedule 26.03.2024