Вопросы по теме 'apache-spark-2.0'

Концептуальное отличие RDD от набора данных в Spark 2.0?
Я читаю В чем разница между Spark DataSet и RDD Разница между DataSet API и DataFrame http://spark.apache.org/docs/latest/sql-programming-guide.html#datasets-and-dataframes...
490 просмотров
schedule 07.12.2022

Добавление набора данных потоковой передачи к набору пакетных данных в Spark
У нас есть вариант использования в Spark, когда мы хотим загружать исторические данные из нашей базы данных в Spark и продолжать добавлять новые потоковые данные в Spark, после чего мы можем проводить анализ всего актуального набора данных....
1493 просмотров

Spark LuceneRDD — как это работает
Не могли бы вы помочь мне понять, что происходит при инициализации Spark RDD ? Существует официальный пример здесь : val capitals = spark.read.parquet("capitals.parquet").select("name", "country") val luceneRDD = LuceneRDD(capitals) val...
843 просмотров

Проблема с отправкой приложения Apache Spark в контейнерный кластер
У меня возникли проблемы с запуском приложения Spark с использованием как spark-submit, так и внутреннего REST API. Сценарий развертывания, который я хотел бы продемонстрировать, — это Spark, работающий как кластер на моем локальном ноутбуке. С...
350 просмотров

Как я могу присоединиться к искровому живому потоку со всеми данными, собранными другим потоком за весь его жизненный цикл?
У меня есть два искровых потока, в первом идут данные, связанные с продуктами: их цена поставщику, валюта, их описание, идентификатор поставщика. Эти данные обогащаются категорией, угадываемой по анализу описания и цене в долларах. Затем они...
526 просмотров

Следует ли установить количество ядер-исполнителей для Apache Spark равным 1 в режиме YARN?
Мой вопрос: правда ли, что при запуске приложений Apache Spark в мастере YARN с режимом развертывания в качестве клиента или кластера для ядер-исполнителей всегда должно быть установлено значение 1? Я запускаю приложение, обрабатывающее миллионы...
641 просмотров
schedule 13.02.2024