Свързани въпроси 'rdd'
Spark JavaRDD получава десет първи стойности, върнати като JavaRDD
Имам JavaRDD
JavaRDD<Tweet> ordered = ... ;
Както подсказва името, поръчан е. Бих искал да взема първите десет стойности (това е в низходящ ред):
JavaRDD<Tweet> top10Followers = ordered.take(10);
Но ми дава следната...
180 изгледи
schedule
21.09.2022
Върнете RDD от takeOrdered, вместо списък
Използвам pyspark, за да направя малко почистване на данни. Много често срещана операция е да вземете малко подмножество от файл и да го експортирате за проверка:
(self.spark_context.textFile(old_filepath+filename)
.takeOrdered(100)...
1673 изгледи
schedule
25.09.2022
Spark за обработка на rdd парче по парче от json файлове и публикуване в темата на Kafka
Нов съм в Spark & scala. Имам изискване да обработя брой json файлове, да речем от s3 местоположение. Тези данни са основно пакетни данни, които ще бъдат запазени за повторна обработка по-късно. Сега моята работа на Spark трябва да обработи тези...
722 изгледи
schedule
29.09.2022
Използвайте Spark RDD, за да намерите цената на пътя
Използвам Spark за проектиране на TSP решаване. По същество всеки елемент в RDD е 3-кортеж (id, x, y) , където id е индексът на точка, а x-y е координатата на тази точка. Като се има предвид RDD, съхраняващ последователност от 3 кортежа, как...
87 изгледи
schedule
07.10.2022
Разбира се, но SO не е само за проблеми с кода. Той е за проблеми с програмирането . Конструирането на алгоритъм е програмен проблем.
1167 изгледи
schedule
28.04.2024
Spark (Java): Вземете двойки име на файл/съдържание от списък с имена на файлове
В момента работя върху проект на Spark в Java и се натъкнах на проблем, който не съм сигурен как да разреша. Не съм запознат с различните методи за присъединяване/обединение, така че смятам, че един от тях е отговорът.
В момента искам да въведа...
971 изгледи
schedule
24.10.2023
Как да преразпределите CassandraRDD в Apache Spark
Използвам клъстер Three Node Cassandra с Six Spark Workers , всеки има 1 Core и 2GB RAM . Използвайки приложението Spark, се опитвам да извлека цели данни от Cassandra Table, която има повече от 300 000 реда, и се опитвам да направя някакво...
592 изгледи
schedule
29.11.2022
Записването на RDD във файл води до _temporary път за части
Имам данни в Spark, които искам да запазя в S3. Препоръчителният метод за запазване е използването на метода saveAsTextFile в SparkContext, който е успешен. Очаквам данните да бъдат запазени като „части“.
Проблемът ми е, че когато отида на S3,...
886 изгледи
schedule
29.01.2024
PySpark - Времево припокриване за обект в RDD
Целта ми е да групирам обекти въз основа на времево припокриване.
Всеки обект в моя rdd съдържа start_time и end_time .
Вероятно правя това неефективно, но това, което планирам да направя, е да присвоя идентификатор на припокриване на всеки...
1861 изгледи
schedule
19.12.2023
искра в python: създаване на rdd чрез зареждане на двоични данни с numpy.fromfile
API на spark python в момента има ограничена поддръжка за зареждане на големи файлове с двоични данни и затова се опитах да накарам numpy.fromfile да ми помогне.
Първо получих списък с имена на файлове, които искам да заредя, напр.:
In [9]...
1415 изгледи
schedule
15.02.2024
Apache Spark разстояние между две точки с помощта на squaredDistance
Имам RDD колекции от вектори, където всеки вектор представлява точка с x и y координати. Например файлът е както следва:
1.1 1.2
6.1 4.8
0.1 0.1
9.0 9.0
9.1 9.1
0.4 2.1
чета го:
def parseVector(line: String): Vector[Double] = {...
5592 изгледи
schedule
26.02.2024
Обяснение на метода на сгъване на искра RDD
Изпълнявам Spark-1.4.0, предварително изграден за Hadoop-2.4 (в локален режим), за да изчисля сумата от квадрати на DoubleRDD. Моят Scala код изглежда така
sc.parallelize(Array(2., 3.)).fold(0.0)((p, v) => p+v*v)
И даде изненадващ...
6183 изгледи
schedule
22.05.2024
Spark & Scala: не може да накара MappedRDD да изпълни groupByKey от RDD
Изправен съм пред разочароващ проблем, докато се опитвам да използвам groupByKey или която и да е функция на PairRDD или MappedRDD. Това, което получавам е, че винаги имам само RDD и не знам как да го преобразувам (наистина съм напълно сигурен,...
551 изгледи
schedule
27.05.2024
PySpark - Разделяне на записи на RDD по един или повече раздела
Създадох RDD от входен файл, който изглежда така:
[u'$, Claw\t\t\t"OnCreativity" (2012) [Himself]']
[u'$, Homo\t\t\tNykytaiteen museo (1986) [Himself] <25>\n\t\t\tSuuri illusioni (1985) [Guests] <22>']
[u'$, Steve\t\tE.R. Sluts...
1744 изгледи
schedule
04.04.2024
Spark RDD карта 1 към много
Нов съм в spark и имам проблем. Обработвам RDD, генериран с textFile(), който е csv файл. За всеки ред искам да върна няколко реда към нов RDD (единичен, а не няколко). Това е моят код:
JavaRDD<LinearAccelerationEvent>...
1448 изгледи
schedule
15.03.2024
Spark: Преобразуване на RDD[(Long, Array[Double])] в RDD[(Long, Long, Double)]
Имам RDD с всеки запис на формата (Long, Array[Double]). Например:
val A = sc.parallelize( [(0, [5.0, 8.3]), (1, [4.2, 1.2])] )
Искам да трансформирам A във формата:
[(0, 0, 5.0), (0, 1, 8.3), (1, 0, 4.2), (1, 1, 1.2)],...
451 изгледи
schedule
07.11.2022
Можем ли да принудим spark да записва дялове от два PairRDD с един и същи ключ на едни и същи машини?
Работя със Spark върху HDFS клъстер. Преди операция за присъединяване в Java Spark между два (ключ, стойност) PairRDD, разделям данните на двата файла с HashPartitioner, за да има елементи с един и същи ключ на една и съща машина. Това е добре за...
443 изгледи
schedule
03.04.2024