Вопросы по теме 'rdd'
Расстояние Apache Spark между двумя точками с использованием SquaredDistance
У меня есть коллекция векторов RDD, где каждый вектор представляет собой точку с координатами x и y . Например, файл выглядит следующим образом:
1.1 1.2
6.1 4.8
0.1 0.1
9.0 9.0
9.1 9.1
0.4 2.1
Я читаю это:
def parseVector(line:...
5592 просмотров
schedule
26.02.2024
Сохранение RDD в файл приводит к _temporary пути для частей
У меня есть данные в Spark, которые я хочу сохранить на S3. Рекомендуемый метод сохранения — использовать метод saveAsTextFile в SparkContext, который работает успешно. Я ожидаю, что данные будут сохранены как «части».
Моя проблема в том, что...
886 просмотров
schedule
29.01.2024
Spark & Scala: не удается заставить MappedRDD выполнять groupByKey из RDD
Я столкнулся с разочаровывающей проблемой при попытке использовать groupByKey или любую функцию PairRDD или MappedRDD. Что я получаю, так это то, что у меня всегда есть только RDD , и я не знаю, как его преобразовать (на самом деле я совершенно...
551 просмотров
schedule
27.05.2024
Spark (Java): получение пар «имя файла/содержимое» из списка имен файлов.
В настоящее время я работаю над проектом Spark на Java и столкнулся с проблемой, которую не знаю, как решить. Я не знаком с различными методами объединения/объединения, поэтому думаю, что один из них и есть ответ.
В настоящее время я хочу ввести...
971 просмотров
schedule
24.10.2023
Как перераспределить CassandraRDD в Apache Spark
Я использую кластер Three Node Cassandra с шестью Spark Workers , каждый из которых имеет 1 ядро и 2 ГБ ОЗУ . Используя приложение Spark, я пытаюсь получить все данные из таблицы Cassandra, которая содержит более 300 тыс. строк, и пытаюсь...
592 просмотров
schedule
29.11.2022
PySpark — перекрытие времени для объекта в RDD
Моя цель - сгруппировать объекты на основе временного перекрытия.
Каждый объект в моем rdd содержит start_time и end_time .
Я, вероятно, делаю это неэффективно, но то, что я планирую сделать, это назначить идентификатор перекрытия для...
1861 просмотров
schedule
19.12.2023
Объяснение кратного метода искрового РДД
Я запускаю Spark-1.4.0, предварительно созданный для Hadoop-2.4 (в локальном режиме), чтобы вычислить сумму квадратов DoubleRDD. Мой код Scala выглядит так
sc.parallelize(Array(2., 3.)).fold(0.0)((p, v) => p+v*v)
И это дало удивительный...
6183 просмотров
schedule
22.05.2024
Вернуть RDD из takeOrdered вместо списка
Я использую pyspark для очистки данных. Очень распространенная операция — взять небольшую часть файла и экспортировать ее для проверки:
(self.spark_context.textFile(old_filepath+filename)
.takeOrdered(100)...
1673 просмотров
schedule
25.09.2022
искра в python: создание rdd путем загрузки двоичных данных с помощью numpy.fromfile
API-интерфейс spark python в настоящее время имеет ограниченную поддержку загрузки больших двоичных файлов данных, поэтому я попытался получить numpy.fromfile, чтобы помочь мне.
Сначала я получил список имен файлов, которые я хотел бы загрузить,...
1415 просмотров
schedule
15.02.2024
PySpark — разделить записи RDD на одну или несколько вкладок
Я создал RDD из входного файла, который выглядит так:
[u'$, Claw\t\t\t"OnCreativity" (2012) [Himself]']
[u'$, Homo\t\t\tNykytaiteen museo (1986) [Himself] <25>\n\t\t\tSuuri illusioni (1985) [Guests] <22>']
[u'$, Steve\t\tE.R....
1744 просмотров
schedule
04.04.2024
Используйте Spark RDD для определения стоимости пути
Я использую Spark для разработки решателя TSP. По сути, каждый элемент в RDD представляет собой тройку (id, x, y) , где id — индекс точки, а x-y — координата этой точки. Учитывая RDD, хранящий последовательность из 3-х кортежей, как я могу...
87 просмотров
schedule
07.10.2022
Карта Spark RDD от 1 до многих
Я новичок в искрах, и у меня есть проблема. Я обрабатываю RDD, созданный с помощью textFile(), который представляет собой файл csv. Для каждой строки я хочу вернуть несколько строк в новый RDD (одну, а не несколько). Это мой код:...
1448 просмотров
schedule
15.03.2024
Spark: преобразование RDD[(Long, Array[Double])] в RDD[(Long, Long, Double)]
У меня есть RDD с каждой записью формата (Long, Array[Double]). Например:
val A = sc.parallelize( [(0, [5.0, 8.3]), (1, [4.2, 1.2])] )
Я хочу преобразовать A в форму:
[(0, 0, 5.0), (0, 1, 8.3), (1, 0, 4.2), (1, 1, 1.2)],
где...
451 просмотров
schedule
07.11.2022
Можем ли мы заставить spark сохранять разделы из двух PairRDD с одним и тем же ключом на одних и тех же машинах?
Я работаю со Spark поверх кластера HDFS. Перед операцией соединения в Java Spark между двумя (ключ, значение) PairRDD я разделяю данные обоих файлов с помощью HashPartitioner, чтобы иметь элементы с одним и тем же ключом на одном компьютере. Это...
443 просмотров
schedule
03.04.2024
Получение кадра данных apache spark в правильном формате
Я пытаюсь преобразовать некоторые входные данные в формат, который я хочу, в искровом фрейме данных. Ввод, который у меня есть, представляет собой последовательность этого класса case с до 10 000 000 классов (или, возможно, также строку Json, прежде...
415 просмотров
schedule
06.03.2024
Как получить доступ к отдельному элементу в кортеже на RDD в pyspark?
Допустим, у меня есть RDD вроде
[(u'Some1', (u'ABC', 9989)),
(u'Some2', (u'XYZ', 235)),
(u'Some3', (u'BBB', 5379)),
(u'Some4', (u'ABC', 5379))]
Я использую map для получения одного кортежа за раз, но как я могу получить доступ к...
7282 просмотров
schedule
12.06.2024
присоединиться к двум rdds, чтобы составить список смежности
Я новичок в искрах, у меня есть два rdd, к которым я хочу присоединиться, чтобы составить список смежности.
RDD1 (nodes): (a, b, c, d, e, f, g)
RDD2 (Edges): ((a,b), (a,e), (f, a), (k,l) ...)
теперь я хочу присоединиться к этим двум rdd,...
515 просмотров
schedule
10.02.2024
Spark DataFrame Cache Большая таблица TempTable
У меня есть искровое приложение с очень большим Dataframe. В настоящее время я регистрирую фрейм данных как tempTable, поэтому я могу выполнить несколько запросов к нему.
Когда я использую RDD, я использую persist(StorageLevel.MEMORY_AND_DISK()),...
1627 просмотров
schedule
06.12.2023
В Java, как связать исходный RDD и RDD, который я получаю после преобразований
У меня есть RDD пользовательских объектов, скажем, Person . затем я использую несколько узких (хотя может быть и широких) преобразований на этом RDD, каждый раз, когда я получаю новый RDD. наконец, я получаю RDD другого типа, скажем, Integer ....
125 просмотров
schedule
10.05.2024
Spark: подключение к БД для каждого раздела Spark RDD и выполнение mapPartition
Я хочу сделать mapPartitions на моем искре rdd,
val newRd = myRdd.mapPartitions(
partition => {
val connection = new DbConnection /*creates a db connection per partition*/
val newPartition = partition.map(...
6253 просмотров
schedule
15.04.2024