Публикации по тематике apache-spark-2.0

Вопросы по теме 'apache-spark-2.0'

Концептуальное отличие RDD от набора данных в Spark 2.0?

Я читаю В чем разница между Spark DataSet и RDD Разница между DataSet API и DataFrame http://spark.apache.org/docs/latest/sql-programming-guide.html#datasets-and-dataframes...

490 просмотров

scala apache-spark-2.0

07.12.2022

Добавление набора данных потоковой передачи к набору пакетных данных в Spark

У нас есть вариант использования в Spark, когда мы хотим загружать исторические данные из нашей базы данных в Spark и продолжать добавлять новые потоковые данные в Spark, после чего мы можем проводить анализ всего актуального набора данных....

1493 просмотров

apache-spark apache-spark-sql spark-structured-streaming apache-spark-2.0

23.10.2023

Spark LuceneRDD — как это работает

Не могли бы вы помочь мне понять, что происходит при инициализации Spark RDD ? Существует официальный пример здесь : val capitals = spark.read.parquet("capitals.parquet").select("name", "country") val luceneRDD = LuceneRDD(capitals) val...

843 просмотров

java apache-spark scala lucene apache-spark-2.0

21.03.2024

Проблема с отправкой приложения Apache Spark в контейнерный кластер

У меня возникли проблемы с запуском приложения Spark с использованием как spark-submit, так и внутреннего REST API. Сценарий развертывания, который я хотел бы продемонстрировать, — это Spark, работающий как кластер на моем локальном ноутбуке. С...

350 просмотров

apache-spark spark-submit apache-spark-2.0

03.10.2022

Как я могу присоединиться к искровому живому потоку со всеми данными, собранными другим потоком за весь его жизненный цикл?

У меня есть два искровых потока, в первом идут данные, связанные с продуктами: их цена поставщику, валюта, их описание, идентификатор поставщика. Эти данные обогащаются категорией, угадываемой по анализу описания и цене в долларах. Затем они...

526 просмотров

apache-spark pyspark spark-streaming amazon-kinesis apache-spark-2.0

19.03.2024

Следует ли установить количество ядер-исполнителей для Apache Spark равным 1 в режиме YARN?

Мой вопрос: правда ли, что при запуске приложений Apache Spark в мастере YARN с режимом развертывания в качестве клиента или кластера для ядер-исполнителей всегда должно быть установлено значение 1? Я запускаю приложение, обрабатывающее миллионы...

641 просмотров

apache-spark yarn apache-spark-2.0

13.02.2024

Вопросы по теме 'apache-spark-2.0'

Похожие вопросы