У меня проблема, когда файлы создаются каждые 15 минут, поэтому через месяц у меня будет ~ 2880 файлов. Через год у меня будет 35 000 файлов! Уплотнение может быть вариантом, что будет означать, что у меня 1 паркетный файл в час = 8760 файлов!
Однако мне было интересно, чем сравнение имен файлов с использованием "$path"
отличается от использования разделов? Удаление разделов выполняется в одном потоке и не распространяется на кластер Hadoop. Итак, если у меня есть 35 000 файлов, разделенных на год = ???? / день = 365 / час = 24/4 файла каждый, то Будет ли производительность сравнения имен файлов такой же, как при использовании сокращения разделов?
PS: Я знаю, что могу архивировать старые файлы.