Публикации по тематике rdd [apache-spark, scala, rdd, dbscan, amazon-s3]

Вопросы по теме 'rdd'

Расстояние Apache Spark между двумя точками с использованием SquaredDistance

У меня есть коллекция векторов RDD, где каждый вектор представляет собой точку с координатами x и y . Например, файл выглядит следующим образом: 1.1 1.2 6.1 4.8 0.1 0.1 9.0 9.0 9.1 9.1 0.4 2.1 Я читаю это: def parseVector(line:...

5592 просмотров

26.02.2024

Сохранение RDD в файл приводит к _temporary пути для частей

У меня есть данные в Spark, которые я хочу сохранить на S3. Рекомендуемый метод сохранения — использовать метод saveAsTextFile в SparkContext, который работает успешно. Я ожидаю, что данные будут сохранены как «части». Моя проблема в том, что...

886 просмотров

amazon-s3 apache-spark rdd

29.01.2024

Spark & Scala: не удается заставить MappedRDD выполнять groupByKey из RDD

Я столкнулся с разочаровывающей проблемой при попытке использовать groupByKey или любую функцию PairRDD или MappedRDD. Что я получаю, так это то, что у меня всегда есть только RDD , и я не знаю, как его преобразовать (на самом деле я совершенно...

551 просмотров

apache-spark scala rdd

27.05.2024

Spark (Java): получение пар «имя файла/содержимое» из списка имен файлов.

В настоящее время я работаю над проектом Spark на Java и столкнулся с проблемой, которую не знаю, как решить. Я не знаком с различными методами объединения/объединения, поэтому думаю, что один из них и есть ответ. В настоящее время я хочу ввести...

971 просмотров

java apache-spark rdd

24.10.2023

Как перераспределить CassandraRDD в Apache Spark

Я использую кластер Three Node Cassandra с шестью Spark Workers , каждый из которых имеет 1 ядро и 2 ГБ ОЗУ . Используя приложение Spark, я пытаюсь получить все данные из таблицы Cassandra, которая содержит более 300 тыс. строк, и пытаюсь...

592 просмотров

java cassandra apache-spark rdd datastax-java-driver

29.11.2022

PySpark — перекрытие времени для объекта в RDD

Моя цель - сгруппировать объекты на основе временного перекрытия. Каждый объект в моем rdd содержит start_time и end_time . Я, вероятно, делаю это неэффективно, но то, что я планирую сделать, это назначить идентификатор перекрытия для...

1861 просмотров

python apache-spark pyspark rdd

19.12.2023

Объяснение кратного метода искрового РДД

Я запускаю Spark-1.4.0, предварительно созданный для Hadoop-2.4 (в локальном режиме), чтобы вычислить сумму квадратов DoubleRDD. Мой код Scala выглядит так sc.parallelize(Array(2., 3.)).fold(0.0)((p, v) => p+v*v) И это дало удивительный...

6183 просмотров

apache-spark scala rdd

22.05.2024

Вернуть RDD из takeOrdered вместо списка

Я использую pyspark для очистки данных. Очень распространенная операция — взять небольшую часть файла и экспортировать ее для проверки: (self.spark_context.textFile(old_filepath+filename) .takeOrdered(100)...

1673 просмотров

python apache-spark rdd

25.09.2022

искра в python: создание rdd путем загрузки двоичных данных с помощью numpy.fromfile

API-интерфейс spark python в настоящее время имеет ограниченную поддержку загрузки больших двоичных файлов данных, поэтому я попытался получить numpy.fromfile, чтобы помочь мне. Сначала я получил список имен файлов, которые я хотел бы загрузить,...

1415 просмотров

python apache-spark pyspark rdd binaryfiles

15.02.2024

PySpark — разделить записи RDD на одну или несколько вкладок

Я создал RDD из входного файла, который выглядит так: [u'$, Claw\t\t\t"OnCreativity" (2012) [Himself]'] [u'$, Homo\t\t\tNykytaiteen museo (1986) [Himself] <25>\n\t\t\tSuuri illusioni (1985) [Guests] <22>'] [u'$, Steve\t\tE.R....

1744 просмотров

python apache-spark pyspark rdd split

04.04.2024

Используйте Spark RDD для определения стоимости пути

Я использую Spark для разработки решателя TSP. По сути, каждый элемент в RDD представляет собой тройку (id, x, y) , где id — индекс точки, а x-y — координата этой точки. Учитывая RDD, хранящий последовательность из 3-х кортежей, как я могу...

87 просмотров

apache-spark rdd

07.10.2022

Карта Spark RDD от 1 до многих

Я новичок в искрах, и у меня есть проблема. Я обрабатываю RDD, созданный с помощью textFile(), который представляет собой файл csv. Для каждой строки я хочу вернуть несколько строк в новый RDD (одну, а не несколько). Это мой код:...

1448 просмотров

apache-spark rdd spark-cassandra-connector

15.03.2024

Spark: преобразование RDD[(Long, Array[Double])] в RDD[(Long, Long, Double)]

У меня есть RDD с каждой записью формата (Long, Array[Double]). Например: val A = sc.parallelize( [(0, [5.0, 8.3]), (1, [4.2, 1.2])] ) Я хочу преобразовать A в форму: [(0, 0, 5.0), (0, 1, 8.3), (1, 0, 4.2), (1, 1, 1.2)], где...

451 просмотров

apache-spark scala rdd

07.11.2022

Можем ли мы заставить spark сохранять разделы из двух PairRDD с одним и тем же ключом на одних и тех же машинах?

Я работаю со Spark поверх кластера HDFS. Перед операцией соединения в Java Spark между двумя (ключ, значение) PairRDD я разделяю данные обоих файлов с помощью HashPartitioner, чтобы иметь элементы с одним и тем же ключом на одном компьютере. Это...

443 просмотров

java apache-spark hdfs join rdd

03.04.2024

Получение кадра данных apache spark в правильном формате

Я пытаюсь преобразовать некоторые входные данные в формат, который я хочу, в искровом фрейме данных. Ввод, который у меня есть, представляет собой последовательность этого класса case с до 10 000 000 классов (или, возможно, также строку Json, прежде...

415 просмотров

apache-spark dataframe apache-spark-sql scala rdd

06.03.2024

Как получить доступ к отдельному элементу в кортеже на RDD в pyspark?

Допустим, у меня есть RDD вроде [(u'Some1', (u'ABC', 9989)), (u'Some2', (u'XYZ', 235)), (u'Some3', (u'BBB', 5379)), (u'Some4', (u'ABC', 5379))] Я использую map для получения одного кортежа за раз, но как я могу получить доступ к...

7282 просмотров

python apache-spark pyspark rdd

12.06.2024

присоединиться к двум rdds, чтобы составить список смежности

Я новичок в искрах, у меня есть два rdd, к которым я хочу присоединиться, чтобы составить список смежности. RDD1 (nodes): (a, b, c, d, e, f, g) RDD2 (Edges): ((a,b), (a,e), (f, a), (k,l) ...) теперь я хочу присоединиться к этим двум rdd,...

515 просмотров

python apache-spark pyspark rdd

10.02.2024

Spark DataFrame Cache Большая таблица TempTable

У меня есть искровое приложение с очень большим Dataframe. В настоящее время я регистрирую фрейм данных как tempTable, поэтому я могу выполнить несколько запросов к нему. Когда я использую RDD, я использую persist(StorageLevel.MEMORY_AND_DISK()),...

1627 просмотров

apache-spark dataframe apache-spark-sql rdd

06.12.2023

В Java, как связать исходный RDD и RDD, который я получаю после преобразований

У меня есть RDD пользовательских объектов, скажем, Person . затем я использую несколько узких (хотя может быть и широких) преобразований на этом RDD, каждый раз, когда я получаю новый RDD. наконец, я получаю RDD другого типа, скажем, Integer ....

125 просмотров

java apache-spark rdd

10.05.2024

Spark: подключение к БД для каждого раздела Spark RDD и выполнение mapPartition

Я хочу сделать mapPartitions на моем искре rdd, val newRd = myRdd.mapPartitions( partition => { val connection = new DbConnection /*creates a db connection per partition*/ val newPartition = partition.map(...

6253 просмотров

apache-spark scala rdd

15.04.2024

Вопросы по теме 'rdd'

Похожие вопросы