HBase требует установки Hadoop на основе того, что я читал до сих пор. И похоже, что HBase можно настроить для использования существующего кластера Hadoop (который используется совместно с некоторыми другими пользователями) или его можно настроить для использования выделенного кластера Hadoop? Я предполагаю, что последняя будет более безопасной конфигурацией, но мне интересно, есть ли у кого-нибудь опыт работы с первой (но тогда я не очень уверен, правильно ли я понимаю настройку HBase).
HBase и Хадуп
Ответы (3)
Я знаю, что Facebook и другие крупные организации отделяют свой кластер HBase (доступ в режиме реального времени) от своего кластера Hadoop (пакетная аналитика) по соображениям производительности. Большие задания MapReduce в кластере могут влиять на производительность интерфейса реального времени, что может быть проблематично.
В небольшой организации или в ситуации, когда время отклика HBase не обязательно должно быть постоянным, вы можете просто использовать один и тот же кластер.
Существует не так много (или вообще никаких) проблем с сосуществованием, кроме проблем с производительностью.
Мы настроили его с помощью существующего кластера Hadoop с 1000 ядрами. Краткий ответ: он отлично работает, по крайней мере, с Cloudera CH2 +149.88. Но в зависимости от версии Hadoop ваш пробег может отличаться.
В распределенном режиме Hadoop используется для хранения HDFS. HBase будет хранить HFile в HDFS и, таким образом, получать преимущества от стратегий репликации и принципов локальности данных, предоставляемых узлами данных.
RegionServer собирается в основном обрабатывать локальные данные, но, возможно, ему все же придется извлекать данные из других узлов данных.
Надеюсь, это поможет вам понять, почему и как Hadoop используется с HBase.