Определение слота уменьшения карты

Я на пути к тому, чтобы стать администратором Cloudera Hadoop. С самого начала я много слышал о вычислительных слотах для каждой машины в кластере Hadoop, например, об определении количества слотов карт и уменьшении слотов.

Я искал в Интернете время журнала, чтобы получить определение Noob для слота уменьшения карты, но не нашел его.

Я действительно разозлился, просматривая PDF-файлы, объясняющие конфигурацию Map Reduce.

Пожалуйста, объясните, что именно имеется в виду, когда речь идет о вычислительном слоте в Машине кластера.


person abbasdjinn    schedule 16.08.2014    source источник


Ответы (4)


В map-reduce v.1 mapreduce.tasktracker.map.tasks.maximum и mapreduce.tasktracker.reduce.tasks.maximum используются для настройки количества слотов карты и соответствующего уменьшения слотов в mapred-site.xml.

начиная с map-reduce v.2 (YARN), вместо слотов используется более общий термин контейнеры, контейнеры представляют собой максимальное количество задач, которые могут выполняться параллельно под узлом, независимо от того, являются ли они задачами Map, Reduce или главной задачей приложения. (в ПРЯЖЕ).

person Hassan Kalaldeh    schedule 27.09.2014

обычно это зависит от ЦП и памяти
В нашем кластере мы устанавливаем 20 слотов карты и 15 слотов уменьшения для машины с 32 ядрами, 64 ГБ памяти
1. Приблизительно для одного слота требуется одно ядро ​​процессора
2 .количество слотов для карты должно быть немного больше, чем уменьшить

person foolbear    schedule 28.09.2014
comment
есть ли ссылка на ваш ответ. Я не очень убежден. - person Dhruv Kapatel; 29.07.2015

В MRV1 у каждой машины было фиксированное количество слотов, предназначенных для карт и уменьшения. Как правило, каждая машина настроена с соотношением карт:редуктор 4:1 на машине.

  • логически можно было бы читать много данных (карты) и сжимать их в небольшой набор (уменьшать).

В MRV2 появилась концепция контейнеров, и любой контейнер может запускать скрипт карты/редуктора/оболочки.

person KrazyGautam    schedule 27.04.2015

Немного поздно, но я все равно отвечу.

Вычислительный слот. Можете ли вы представить себе все различные вычисления в Hadoop, которые потребуют некоторого ресурса, то есть памяти/ЦП/размера диска.

Ресурс = требуется память, процессорное ядро ​​или размер диска.

Выделение ресурса для запуска контейнера, выделение ресурса для выполнения карты или задачи сокращения и т. д.

Все дело в том, как вы хотели бы управлять ресурсами, которые у вас есть. Что бы это было? Объем оперативной памяти, ядер, дисков.

Цель состоит в том, чтобы убедиться, что ваша обработка не ограничена ни одним из этих ресурсов кластера. Вы хотите, чтобы ваша обработка была максимально динамичной.

Например, Hadoop YARN позволяет настроить минимальный объем ОЗУ, необходимый для запуска контейнера YARN, минимальный объем ОЗУ, необходимый для запуска задачи MAP/REDUCE, размер кучи JVM (для задач Map и Reduce) и объем виртуальной памяти, который получит каждая задача. .

В отличие от Hadoop MR1, вы не выполняете предварительную настройку (например, размер ОЗУ) еще до того, как начнете выполнять задачи Map-Reduce. В том смысле, что вы хотели бы, чтобы распределение ресурсов было как можно более эластичным, то есть динамически увеличивайте количество ядер RAM/CPU либо для задачи MAP, либо для задачи REDUCE.

person Opster ES Ninja - Kamal    schedule 10.10.2016