Пакетный интервал потоковой передачи Spark с Kenisis

Каков эффект установки пакетного интервала при создании контекста потоковой передачи

новый StreamingContext (spark.sparkContext, batchInterval)

Согласно этому Amazon blog интервал пакетной обработки Kinesis жестко задан равным 1 с.


person EugeneMi    schedule 07.08.2017    source источник


Ответы (1)


Пакетный интервал Kinesis, упомянутый в блоге, — это интервал, с которым приемник считывает данные из потока, который по умолчанию установлен на 1 секунду. Этот интервал просто определяет входную скорость приемника.

Пакетный интервал, предоставленный при создании StreamingContext, делит входные записи на пакеты с заданным интервалом, которые будут обрабатываться с помощью потоковой передачи искры.

Например, если у вас есть один приемник Kinesis, а параметр batchInterval равен 10 секундам, приемник сможет считывать до 10 000 записей за 10 секунд, то есть считывать 1000 записей в секунду из потока Kinesis. Таким образом, ваш пакет потоковой передачи будет включать 10000 записей.

person BigDataGuru    schedule 27.09.2017