Не обсуждая все другие факторы производительности, дисковое пространство и объекты узла Name, как фактор репликации может улучшить производительность MR, Tez и Spark.
Если у нас есть, например, 5 datanades, лучше ли механизму выполнения установить репликацию на 5? Какое лучшее и худшее значение?
Как это может быть хорошо для агрегаций, объединений и задач, связанных только с картой?