Публикации по темата rdd [java, apache-spark, rdd, python, scala]

Свързани въпроси 'rdd'

Spark JavaRDD получава десет първи стойности, върнати като JavaRDD

Имам JavaRDD JavaRDD<Tweet> ordered = ... ; Както подсказва името, поръчан е. Бих искал да взема първите десет стойности (това е в низходящ ред): JavaRDD<Tweet> top10Followers = ordered.take(10); Но ми дава следната...

180 изгледи

java apache-spark rdd

21.09.2022

Върнете RDD от takeOrdered, вместо списък

Използвам pyspark, за да направя малко почистване на данни. Много често срещана операция е да вземете малко подмножество от файл и да го експортирате за проверка: (self.spark_context.textFile(old_filepath+filename) .takeOrdered(100)...

1673 изгледи

python apache-spark rdd

25.09.2022

Spark за обработка на rdd парче по парче от json файлове и публикуване в темата на Kafka

Нов съм в Spark & scala. Имам изискване да обработя брой json файлове, да речем от s3 местоположение. Тези данни са основно пакетни данни, които ще бъдат запазени за повторна обработка по-късно. Сега моята работа на Spark трябва да обработи тези...

722 изгледи

apache-spark scala rdd

29.09.2022

Използвайте Spark RDD, за да намерите цената на пътя

Използвам Spark за проектиране на TSP решаване. По същество всеки елемент в RDD е 3-кортеж (id, x, y) , където id е индексът на точка, а x-y е координатата на тази точка. Като се има предвид RDD, съхраняващ последователност от 3 кортежа, как...

87 изгледи

apache-spark rdd

07.10.2022

Разбира се, но SO не е само за проблеми с кода. Той е за проблеми с програмирането . Конструирането на алгоритъм е програмен проблем.

1167 изгледи

apache-kafka apache-spark scala rdd classcastexception

28.04.2024

Spark (Java): Вземете двойки име на файл/съдържание от списък с имена на файлове

В момента работя върху проект на Spark в Java и се натъкнах на проблем, който не съм сигурен как да разреша. Не съм запознат с различните методи за присъединяване/обединение, така че смятам, че един от тях е отговорът. В момента искам да въведа...

971 изгледи

java apache-spark rdd

24.10.2023

Как да преразпределите CassandraRDD в Apache Spark

Използвам клъстер Three Node Cassandra с Six Spark Workers , всеки има 1 Core и 2GB RAM . Използвайки приложението Spark, се опитвам да извлека цели данни от Cassandra Table, която има повече от 300 000 реда, и се опитвам да направя някакво...

592 изгледи

java cassandra apache-spark rdd datastax-java-driver

29.11.2022

Записването на RDD във файл води до _temporary път за части

Имам данни в Spark, които искам да запазя в S3. Препоръчителният метод за запазване е използването на метода saveAsTextFile в SparkContext, който е успешен. Очаквам данните да бъдат запазени като „части“. Проблемът ми е, че когато отида на S3,...

886 изгледи

amazon-s3 apache-spark rdd

29.01.2024

PySpark - Времево припокриване за обект в RDD

Целта ми е да групирам обекти въз основа на времево припокриване. Всеки обект в моя rdd съдържа start_time и end_time . Вероятно правя това неефективно, но това, което планирам да направя, е да присвоя идентификатор на припокриване на всеки...

1861 изгледи

python apache-spark pyspark rdd

19.12.2023

искра в python: създаване на rdd чрез зареждане на двоични данни с numpy.fromfile

API на spark python в момента има ограничена поддръжка за зареждане на големи файлове с двоични данни и затова се опитах да накарам numpy.fromfile да ми помогне. Първо получих списък с имена на файлове, които искам да заредя, напр.: In [9]...

1415 изгледи

python apache-spark pyspark rdd binaryfiles

15.02.2024

Apache Spark разстояние между две точки с помощта на squaredDistance

Имам RDD колекции от вектори, където всеки вектор представлява точка с x и y координати. Например файлът е както следва: 1.1 1.2 6.1 4.8 0.1 0.1 9.0 9.0 9.1 9.1 0.4 2.1 чета го: def parseVector(line: String): Vector[Double] = {...

5592 изгледи

apache-spark scala rdd dbscan

26.02.2024

Обяснение на метода на сгъване на искра RDD

Изпълнявам Spark-1.4.0, предварително изграден за Hadoop-2.4 (в локален режим), за да изчисля сумата от квадрати на DoubleRDD. Моят Scala код изглежда така sc.parallelize(Array(2., 3.)).fold(0.0)((p, v) => p+v*v) И даде изненадващ...

6183 изгледи

apache-spark scala rdd

22.05.2024

Spark & Scala: не може да накара MappedRDD да изпълни groupByKey от RDD

Изправен съм пред разочароващ проблем, докато се опитвам да използвам groupByKey или която и да е функция на PairRDD или MappedRDD. Това, което получавам е, че винаги имам само RDD и не знам как да го преобразувам (наистина съм напълно сигурен,...

551 изгледи

apache-spark scala rdd

27.05.2024

PySpark - Разделяне на записи на RDD по един или повече раздела

Създадох RDD от входен файл, който изглежда така: [u'$, Claw\t\t\t"OnCreativity" (2012) [Himself]'] [u'$, Homo\t\t\tNykytaiteen museo (1986) [Himself] <25>\n\t\t\tSuuri illusioni (1985) [Guests] <22>'] [u'$, Steve\t\tE.R. Sluts...

1744 изгледи

python apache-spark pyspark rdd split

04.04.2024

Spark RDD карта 1 към много

Нов съм в spark и имам проблем. Обработвам RDD, генериран с textFile(), който е csv файл. За всеки ред искам да върна няколко реда към нов RDD (единичен, а не няколко). Това е моят код: JavaRDD<LinearAccelerationEvent>...

1448 изгледи

apache-spark rdd spark-cassandra-connector

15.03.2024

Spark: Преобразуване на RDD[(Long, Array[Double])] в RDD[(Long, Long, Double)]

Имам RDD с всеки запис на формата (Long, Array[Double]). Например: val A = sc.parallelize( [(0, [5.0, 8.3]), (1, [4.2, 1.2])] ) Искам да трансформирам A във формата: [(0, 0, 5.0), (0, 1, 8.3), (1, 0, 4.2), (1, 1, 1.2)],...

451 изгледи

apache-spark scala rdd

07.11.2022

Можем ли да принудим spark да записва дялове от два PairRDD с един и същи ключ на едни и същи машини?

Работя със Spark върху HDFS клъстер. Преди операция за присъединяване в Java Spark между два (ключ, стойност) PairRDD, разделям данните на двата файла с HashPartitioner, за да има елементи с един и същи ключ на една и съща машина. Това е добре за...

443 изгледи

java apache-spark hdfs join rdd

03.04.2024

Свързани въпроси 'rdd'

Подобни въпроси