Я пытаюсь понять Spark Sql Shuffle Partitions, для которого по умолчанию установлено значение 200. Данные выглядят следующим образом, за ними следует количество разделов, созданных для двух случаев.
scala> flightData2015.show(3)
+-----------------+-------------------+-----+
|DEST_COUNTRY_NAME|ORIGIN_COUNTRY_NAME|count|
+-----------------+-------------------+-----+
| United States| Romania| 15|
| United States| Croatia| 1|
| United States| Ireland| 344|
+-----------------+-------------------+-----+
scala> println(flightData2015.sort("DEST_COUNTRY_NAME").rdd.getNumPartitions)
104
scala> println(flightData2015.groupBy("DEST_COUNTRY_NAME").count().rdd.getNumPartitions)
200
Оба случая вызывают стадию перемешивания, которая должна привести к 200 разделам (значение по умолчанию). Может кто-нибудь объяснить, почему есть разница?