Вопросы по теме 'spark-streaming'

Попытка запустить SparkSQL через Spark Streaming
Я пытаюсь запускать SQL-запросы по потоковым данным в искре. Это выглядит довольно просто, но когда я пытаюсь это сделать, я получаю сообщение об ошибке table not found : tablename > . Он не может найти таблицу, которую я зарегистрировал....
4718 просмотров
schedule 28.05.2024

spark ssc.textFileStream не передает файлы из каталога
Я пытаюсь выполнить приведенный ниже код, используя eclipse (с maven conf) с 2 рабочими, и каждый из них имеет 2 ядра, или также пробовал с помощью spark-submit. public class StreamingWorkCount implements Serializable { public static void...
15804 просмотров

как отправлять данные с помощью foreachRDD с помощью Java
У меня есть данные RDD, которые я преобразовал в JavaDStream, теперь я хочу отправить их в тему kafka, мне не нужен код отправки kafka, просто мне нужна реализация foreachRDD, мой код выглядит как public void publishtoKafka(ITblStream t) {...
8663 просмотров

Распараллелить приемники между машинами в Spark Streaming
Могу ли я в потоковом приложении Spark распараллелить приемники на всех компьютерах в кластере (а не только на главном)? Таким образом, все узлы в кластере Spark одновременно читают данные из внешнего потока.
346 просмотров

Websphere MQ как источник данных для Apache Spark Streaming
Я изучал возможности Websphere MQ в качестве источника данных для потоковой передачи искр, потому что это необходимо в одном из наших вариантов использования. Я узнал, что MQTT — это протокол, который поддерживает связь из структур данных MQ, но,...
3405 просмотров
schedule 08.12.2023

Привязка потоковых данных к конкретным рабочим
Мы пытаемся заменить Apache Storm потоковой передачей Apache Spark. в шторм; мы разделили поток на основе «идентификатора клиента», так что сообщения с диапазоном «идентификаторов клиента» будут направляться на один и тот же болт (рабочий). Мы...
28 просмотров
schedule 13.11.2022

Интерактивный поиск данных, хранящихся в Parquet, с помощью Apache Spark Streaming и Dataframes
У меня есть значительный объем данных, хранящихся на моей Hadoop HDFS в виде файлов Parquet. Я использую потоковую передачу Spark для интерактивного получения запросов с веб-сервера и преобразования полученных запросов в SQL для обработки моих данных...
628 просмотров

Невозможно записать в файл parque с помощью fullSet.repartition(1).saveAsParquetFile(swift://notebooks.spark/tweetsFull.parquet)
Я пытаюсь создать приложение, используя искру apache, используя IBM bluemix. (Ссылка https://developer.ibm.com/clouddataservices/sentiment-analysis-of-twitter-hashtags/ ). Я использую потоковый API для потоковой передачи данных и успешно создал...
284 просмотров

Путаница с потоковой передачей Spark с несколькими входными потоками kafka dstreams
Я новичок в Spark Streaming. Я не знаю разницы между кодами ниже: A: val kafkaDStreams = (1 to 3).map { i => KafkaUtils.createStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, topicsMap,...
730 просмотров
schedule 15.11.2022

Spark Streaming с Python - исключение класса не найдено
Я работаю над проектом по массовой загрузке данных из CSV-файла в HBase с использованием потоковой передачи Spark. Код, который я использую, выглядит следующим образом (адаптировано из здесь ): def bulk_load(rdd): conf = {#removed for...
1163 просмотров
schedule 22.11.2022

Аренда AWS KinesisНеразбериха с владельцем
Очень простое приложение, работающее в кластере Spark с двумя рабочими процессами, использующее Kinesis с двумя осколками. И я проверяю состояние приложения Kinesis Streams на DynamoDB. (показать на этом снимке экрана) в регионе Северная...
1081 просмотров

Задание потоковой передачи Spark не выполняется после остановки драйвером
У меня есть задание потоковой передачи искр, которое считывает данные из Kafka и выполняет с ними некоторые операции. Я выполняю эту работу над кластером пряжи Spark 1.4.1, который имеет два узла с 16 ГБ ОЗУ каждый и 16 ядрами каждый. У меня есть...
3261 просмотров

Проблема при попытке запросить таблицу кустов в формате csv через spark-sql. Может ли кто-нибудь объяснить причину?
Я получаю исключение "java.lang.ClassNotFoundException: com.bizo.hive.serde.csv.CSVSerde" при попытке запросить таблицу куста, имеющую свойства ROW FORMAT SERDE 'com.bizo.hive.serde.csv.CSVSerde' СОХРАНЕНО КАК INPUTFORMAT...
632 просмотров

Потоковая передача Spark не запоминает предыдущее состояние
Я написал программу потоковой передачи искры с преобразованием состояния. Похоже, что мое приложение для потоковой передачи искры правильно выполняет вычисления с контрольными точками. Но если я завершу свою программу и запущу ее снова, она не...
885 просмотров
schedule 08.02.2024

Публикация результата Apache Spark в другом приложении/Кафке
В настоящее время я разрабатываю модуль быстрой агрегации данных, который получает события и публикует их в кластере Kafka. Затем у нас есть интеграция Kafka и Spark Streaming. Spark Streaming считывает поток из Kafka и выполняет некоторые...
785 просмотров

Перезапустите Редьюкбайкэйандвиндовс
я действительно новичок в Spark и Scala, и я использую ReduceByKeyAndWindows для подсчета слов в сообщениях kafka, потому что мне нужно использовать функции окна. Целью моего приложения является отправка предупреждения при обнаружении сообщений...
222 просмотров
schedule 17.10.2022

Работает ли потоковая передача искры как с cp, так и с mv
Я использую потоковую передачу искры Моя программа постоянно читает потоки из папки hadoop. Проблема в том, что если я копирую в свою папку hadoop (hadoop fs -copyFromLocal), запускается задание spark, но если я перемещаюсь (hadoop fs -mv...
323 просмотров
schedule 27.05.2024

SPARK - объединение двух потоков данных - обслуживание кеша
Очевидно, что возможность соединения в искровом потоке без дополнительных настроек не гарантирует многих реальных случаев использования. Причина в том, что он объединяет только данные, содержащиеся в RDD микропакетов. Пример использования -...
1245 просмотров

Количество активных потоков Spark StreamingContext
Состояние spark docs : Одновременно в JVM может быть активен только один StreamingContext. Представьте себе случай, когда я планирую читать/обрабатывать данные из двух тем Kafka, где одно задание извлекает данные из одной темы Kafka, а...
428 просмотров

Как вызвать скрипт Python в Spark?
У меня есть metrics.py , который вычисляет график. Я могу вызвать его в командной строке терминала ( python ./metrics.py -i [input] [output] ). Я хочу написать функцию в Spark. Он вызывает сценарий metrics.py для запуска по указанному пути к...
6328 просмотров