Свързани въпроси 'rdd'

Spark JavaRDD получава десет първи стойности, върнати като JavaRDD
Имам JavaRDD JavaRDD<Tweet> ordered = ... ; Както подсказва името, поръчан е. Бих искал да взема първите десет стойности (това е в низходящ ред): JavaRDD<Tweet> top10Followers = ordered.take(10); Но ми дава следната...
180 изгледи
schedule 21.09.2022

Върнете RDD от takeOrdered, вместо списък
Използвам pyspark, за да направя малко почистване на данни. Много често срещана операция е да вземете малко подмножество от файл и да го експортирате за проверка: (self.spark_context.textFile(old_filepath+filename) .takeOrdered(100)...
1673 изгледи
schedule 25.09.2022

Spark за обработка на rdd парче по парче от json файлове и публикуване в темата на Kafka
Нов съм в Spark & ​​scala. Имам изискване да обработя брой json файлове, да речем от s3 местоположение. Тези данни са основно пакетни данни, които ще бъдат запазени за повторна обработка по-късно. Сега моята работа на Spark трябва да обработи тези...
722 изгледи
schedule 29.09.2022

Използвайте Spark RDD, за да намерите цената на пътя
Използвам Spark за проектиране на TSP решаване. По същество всеки елемент в RDD е 3-кортеж (id, x, y) , където id е индексът на точка, а x-y е координатата на тази точка. Като се има предвид RDD, съхраняващ последователност от 3 кортежа, как...
87 изгледи
schedule 07.10.2022

Разбира се, но SO не е само за проблеми с кода. Той е за проблеми с програмирането . Конструирането на алгоритъм е програмен проблем.
1167 изгледи

Spark (Java): Вземете двойки име на файл/съдържание от списък с имена на файлове
В момента работя върху проект на Spark в Java и се натъкнах на проблем, който не съм сигурен как да разреша. Не съм запознат с различните методи за присъединяване/обединение, така че смятам, че един от тях е отговорът. В момента искам да въведа...
971 изгледи
schedule 24.10.2023

Как да преразпределите CassandraRDD в Apache Spark
Използвам клъстер Three Node Cassandra с Six Spark Workers , всеки има 1 Core и 2GB RAM . Използвайки приложението Spark, се опитвам да извлека цели данни от Cassandra Table, която има повече от 300 000 реда, и се опитвам да направя някакво...
592 изгледи

Записването на RDD във файл води до _temporary път за части
Имам данни в Spark, които искам да запазя в S3. Препоръчителният метод за запазване е използването на метода saveAsTextFile в SparkContext, който е успешен. Очаквам данните да бъдат запазени като „части“. Проблемът ми е, че когато отида на S3,...
886 изгледи
schedule 29.01.2024

PySpark - Времево припокриване за обект в RDD
Целта ми е да групирам обекти въз основа на времево припокриване. Всеки обект в моя rdd съдържа start_time и end_time . Вероятно правя това неефективно, но това, което планирам да направя, е да присвоя идентификатор на припокриване на всеки...
1861 изгледи
schedule 19.12.2023

искра в python: създаване на rdd чрез зареждане на двоични данни с numpy.fromfile
API на spark python в момента има ограничена поддръжка за зареждане на големи файлове с двоични данни и затова се опитах да накарам numpy.fromfile да ми помогне. Първо получих списък с имена на файлове, които искам да заредя, напр.: In [9]...
1415 изгледи
schedule 15.02.2024

Apache Spark разстояние между две точки с помощта на squaredDistance
Имам RDD колекции от вектори, където всеки вектор представлява точка с x и y координати. Например файлът е както следва: 1.1 1.2 6.1 4.8 0.1 0.1 9.0 9.0 9.1 9.1 0.4 2.1 чета го: def parseVector(line: String): Vector[Double] = {...
5592 изгледи
schedule 26.02.2024

Обяснение на метода на сгъване на искра RDD
Изпълнявам Spark-1.4.0, предварително изграден за Hadoop-2.4 (в локален режим), за да изчисля сумата от квадрати на DoubleRDD. Моят Scala код изглежда така sc.parallelize(Array(2., 3.)).fold(0.0)((p, v) => p+v*v) И даде изненадващ...
6183 изгледи
schedule 22.05.2024

Spark & ​​Scala: не може да накара MappedRDD да изпълни groupByKey от RDD
Изправен съм пред разочароващ проблем, докато се опитвам да използвам groupByKey или която и да е функция на PairRDD или MappedRDD. Това, което получавам е, че винаги имам само RDD и не знам как да го преобразувам (наистина съм напълно сигурен,...
551 изгледи
schedule 27.05.2024

PySpark - Разделяне на записи на RDD по един или повече раздела
Създадох RDD от входен файл, който изглежда така: [u'$, Claw\t\t\t"OnCreativity" (2012) [Himself]'] [u'$, Homo\t\t\tNykytaiteen museo (1986) [Himself] <25>\n\t\t\tSuuri illusioni (1985) [Guests] <22>'] [u'$, Steve\t\tE.R. Sluts...
1744 изгледи
schedule 04.04.2024

Spark RDD карта 1 към много
Нов съм в spark и имам проблем. Обработвам RDD, генериран с textFile(), който е csv файл. За всеки ред искам да върна няколко реда към нов RDD (единичен, а не няколко). Това е моят код: JavaRDD<LinearAccelerationEvent>...
1448 изгледи

Spark: Преобразуване на RDD[(Long, Array[Double])] в RDD[(Long, Long, Double)]
Имам RDD с всеки запис на формата (Long, Array[Double]). Например: val A = sc.parallelize( [(0, [5.0, 8.3]), (1, [4.2, 1.2])] ) Искам да трансформирам A във формата: [(0, 0, 5.0), (0, 1, 8.3), (1, 0, 4.2), (1, 1, 1.2)],...
451 изгледи
schedule 07.11.2022

Можем ли да принудим spark да записва дялове от два PairRDD с един и същи ключ на едни и същи машини?
Работя със Spark върху HDFS клъстер. Преди операция за присъединяване в Java Spark между два (ключ, стойност) PairRDD, разделям данните на двата файла с HashPartitioner, за да има елементи с един и същи ключ на една и съща машина. Това е добре за...
443 изгледи
schedule 03.04.2024