Я использую кластер Three Node Cassandra с шестью Spark Workers, каждый из которых имеет 1 ядро и 2 ГБ ОЗУ. Используя приложение Spark, я пытаюсь получить все данные из таблицы Cassandra, которая содержит более 300 тыс. строк, и пытаюсь выполнить некоторую агрегацию.
Но получение данных из Cassandra занимает много времени. Я также просмотрел пользовательский интерфейс Spark и увидел, что стадия Spark имеет 3 раздела, из которых два выполняются очень быстро (в течение секунд), а третий занимает много времени (7 минут).
И я также попытался переразбить CassandraRDD, чтобы увеличить количество задач и распределить задачи между всеми шестью рабочими, но не нашел никакого решения.