Използвам клъстер Three Node Cassandra с Six Spark Workers, всеки има 1 Core и 2GB RAM. Използвайки приложението Spark, се опитвам да извлека цели данни от Cassandra Table, която има повече от 300 000 реда, и се опитвам да направя някакво агрегиране.
Но извличането на данни от Касандра отнема много време. Преминах също през потребителския интерфейс на Spark, видях, че етапът на Spark има 3 дяла, в които два се изпълняват много бързо (в рамките на секунди), но третият отнема много време (7 минути).
И също така се опитах да разделя CassandraRDD, за да увелича броя на задачите и да разпределя задачите на всичките шест работници, но не открих никакво решение.