Вопросы по теме 'rdd'

Расстояние Apache Spark между двумя точками с использованием SquaredDistance
У меня есть коллекция векторов RDD, где каждый вектор представляет собой точку с координатами x и y . Например, файл выглядит следующим образом: 1.1 1.2 6.1 4.8 0.1 0.1 9.0 9.0 9.1 9.1 0.4 2.1 Я читаю это: def parseVector(line:...
5592 просмотров
schedule 26.02.2024

Сохранение RDD в файл приводит к _temporary пути для частей
У меня есть данные в Spark, которые я хочу сохранить на S3. Рекомендуемый метод сохранения — использовать метод saveAsTextFile в SparkContext, который работает успешно. Я ожидаю, что данные будут сохранены как «части». Моя проблема в том, что...
886 просмотров
schedule 29.01.2024

Spark & ​​Scala: не удается заставить MappedRDD выполнять groupByKey из RDD
Я столкнулся с разочаровывающей проблемой при попытке использовать groupByKey или любую функцию PairRDD или MappedRDD. Что я получаю, так это то, что у меня всегда есть только RDD , и я не знаю, как его преобразовать (на самом деле я совершенно...
551 просмотров
schedule 27.05.2024

Spark (Java): получение пар «имя файла/содержимое» из списка имен файлов.
В настоящее время я работаю над проектом Spark на Java и столкнулся с проблемой, которую не знаю, как решить. Я не знаком с различными методами объединения/объединения, поэтому думаю, что один из них и есть ответ. В настоящее время я хочу ввести...
971 просмотров
schedule 24.10.2023

Как перераспределить CassandraRDD в Apache Spark
Я использую кластер Three Node Cassandra с шестью Spark Workers , каждый из которых имеет 1 ядро и 2 ГБ ОЗУ . Используя приложение Spark, я пытаюсь получить все данные из таблицы Cassandra, которая содержит более 300 тыс. строк, и пытаюсь...
592 просмотров

PySpark — перекрытие времени для объекта в RDD
Моя цель - сгруппировать объекты на основе временного перекрытия. Каждый объект в моем rdd содержит start_time и end_time . Я, вероятно, делаю это неэффективно, но то, что я планирую сделать, это назначить идентификатор перекрытия для...
1861 просмотров
schedule 19.12.2023

Объяснение кратного метода искрового РДД
Я запускаю Spark-1.4.0, предварительно созданный для Hadoop-2.4 (в локальном режиме), чтобы вычислить сумму квадратов DoubleRDD. Мой код Scala выглядит так sc.parallelize(Array(2., 3.)).fold(0.0)((p, v) => p+v*v) И это дало удивительный...
6183 просмотров
schedule 22.05.2024

Вернуть RDD из takeOrdered вместо списка
Я использую pyspark для очистки данных. Очень распространенная операция — взять небольшую часть файла и экспортировать ее для проверки: (self.spark_context.textFile(old_filepath+filename) .takeOrdered(100)...
1673 просмотров
schedule 25.09.2022

искра в python: создание rdd путем загрузки двоичных данных с помощью numpy.fromfile
API-интерфейс spark python в настоящее время имеет ограниченную поддержку загрузки больших двоичных файлов данных, поэтому я попытался получить numpy.fromfile, чтобы помочь мне. Сначала я получил список имен файлов, которые я хотел бы загрузить,...
1415 просмотров
schedule 15.02.2024

PySpark — разделить записи RDD на одну или несколько вкладок
Я создал RDD из входного файла, который выглядит так: [u'$, Claw\t\t\t"OnCreativity" (2012) [Himself]'] [u'$, Homo\t\t\tNykytaiteen museo (1986) [Himself] <25>\n\t\t\tSuuri illusioni (1985) [Guests] <22>'] [u'$, Steve\t\tE.R....
1744 просмотров
schedule 04.04.2024

Используйте Spark RDD для определения стоимости пути
Я использую Spark для разработки решателя TSP. По сути, каждый элемент в RDD представляет собой тройку (id, x, y) , где id — индекс точки, а x-y — координата этой точки. Учитывая RDD, хранящий последовательность из 3-х кортежей, как я могу...
87 просмотров
schedule 07.10.2022

Карта Spark RDD от 1 до многих
Я новичок в искрах, и у меня есть проблема. Я обрабатываю RDD, созданный с помощью textFile(), который представляет собой файл csv. Для каждой строки я хочу вернуть несколько строк в новый RDD (одну, а не несколько). Это мой код:...
1448 просмотров

Spark: преобразование RDD[(Long, Array[Double])] в RDD[(Long, Long, Double)]
У меня есть RDD с каждой записью формата (Long, Array[Double]). Например: val A = sc.parallelize( [(0, [5.0, 8.3]), (1, [4.2, 1.2])] ) Я хочу преобразовать A в форму: [(0, 0, 5.0), (0, 1, 8.3), (1, 0, 4.2), (1, 1, 1.2)], где...
451 просмотров
schedule 07.11.2022

Можем ли мы заставить spark сохранять разделы из двух PairRDD с одним и тем же ключом на одних и тех же машинах?
Я работаю со Spark поверх кластера HDFS. Перед операцией соединения в Java Spark между двумя (ключ, значение) PairRDD я разделяю данные обоих файлов с помощью HashPartitioner, чтобы иметь элементы с одним и тем же ключом на одном компьютере. Это...
443 просмотров
schedule 03.04.2024

Получение кадра данных apache spark в правильном формате
Я пытаюсь преобразовать некоторые входные данные в формат, который я хочу, в искровом фрейме данных. Ввод, который у меня есть, представляет собой последовательность этого класса case с до 10 000 000 классов (или, возможно, также строку Json, прежде...
415 просмотров

Как получить доступ к отдельному элементу в кортеже на RDD в pyspark?
Допустим, у меня есть RDD вроде [(u'Some1', (u'ABC', 9989)), (u'Some2', (u'XYZ', 235)), (u'Some3', (u'BBB', 5379)), (u'Some4', (u'ABC', 5379))] Я использую map для получения одного кортежа за раз, но как я могу получить доступ к...
7282 просмотров
schedule 12.06.2024

присоединиться к двум rdds, чтобы составить список смежности
Я новичок в искрах, у меня есть два rdd, к которым я хочу присоединиться, чтобы составить список смежности. RDD1 (nodes): (a, b, c, d, e, f, g) RDD2 (Edges): ((a,b), (a,e), (f, a), (k,l) ...) теперь я хочу присоединиться к этим двум rdd,...
515 просмотров
schedule 10.02.2024

Spark DataFrame Cache Большая таблица TempTable
У меня есть искровое приложение с очень большим Dataframe. В настоящее время я регистрирую фрейм данных как tempTable, поэтому я могу выполнить несколько запросов к нему. Когда я использую RDD, я использую persist(StorageLevel.MEMORY_AND_DISK()),...
1627 просмотров

В Java, как связать исходный RDD и RDD, который я получаю после преобразований
У меня есть RDD пользовательских объектов, скажем, Person . затем я использую несколько узких (хотя может быть и широких) преобразований на этом RDD, каждый раз, когда я получаю новый RDD. наконец, я получаю RDD другого типа, скажем, Integer ....
125 просмотров
schedule 10.05.2024

Spark: подключение к БД для каждого раздела Spark RDD и выполнение mapPartition
Я хочу сделать mapPartitions на моем искре rdd, val newRd = myRdd.mapPartitions( partition => { val connection = new DbConnection /*creates a db connection per partition*/ val newPartition = partition.map(...
6253 просмотров
schedule 15.04.2024