ЧТО ТАКОЕ S3: S3 означает «Простая служба хранения» и предлагается Amazon Web Services. Он обеспечивает простое в использовании хранилище файловых объектов через веб-службу. AWS предоставляет веб-интерфейс для S3, а также AWS CLI (интерфейс командной строки).

ПОЧЕМУ S3: многие организации перемещают данные в облако, потому что это более доступный вариант, чем их локальное хранение. Некоторые организации используют S3 из Amazon Web Services (AWS), чтобы они могли легко использовать данные через другие вычислительные среды, такие как Hadoop, RDBMS, или выбрать сервисы EC2 для обработки данных.

КАК ПЕРЕМЕСТИТЬ ДАННЫЕ ИЗ HDFS в S3. Выполните описанный ниже процесс:

Если вы когда-либо хотели переместить данные из среды Hadoop в корзину S3, есть очень простой способ сделать это. Это требует двух шагов:

ШАГ 1. Создайте сегмент S3

ШАГ 2. Используйте утилиту distcp для копирования данных с платформы hadoop в корзину S3, созданную на ШАГЕ1.

Ниже приведены подробные сведения о каждом ШАГЕ!

ШАГ 1. Создайте корзину S3

  1. Войдите в предварительную версию Консоли управления AWS.

2. В разделе Хранилище и доставка контента выберите S3, чтобы открыть консоль Amazon S3.

3. На панели управления консоли Amazon S3 выберите Создать сегмент.

4. В Создать сегмент введите имя сегмента в Имя сегмента.

5. Выберите регион, который хотите использовать.

6. Нажмите "Создать".

ШАГ 2. Перенесите данные из Hadoop в новую корзину S3.

  1. Откройте терминальный сеанс исходной системы hadoop:
  2. Используйте distcp для перемещения данных из Hadoop HDFS в новую корзину S3

Это будет выглядеть примерно так:

hadoop distcp -Dfs.s3a.access.key = AKIAHIDEHIDEHIDEHIDE -Dfs.s3a.secret.key = RealLYHidE + ReallYHide + ReallyHide hdfs: // {yoursystemname}: {port} / user / hive / inventory / databaseDirectory / datadirectory / s3a: // {yourbucket} / {somedirectoryStructure} /

Давайте разберем утверждение: (оно состоит из 3 частей)

  1. hadoop distcp -Dfs.s3a.access.key = AKIAHIDEHIDEHIDEHIDE -Dfs.s3a.secret.key = RealLYHidE + ReallYHide + ReallyHide

ПРИМЕЧАНИЕ. Это команда копирования дистрибутива hadoop. Он позволяет копировать данные в систему Hadoop и из нее. Ключ доступа и секретный ключ находятся в настройках IAM в AWS. Это средство безопасности для защиты ваших данных в корзине.

2. hdfs: // {yoursystemname}: {port} / user / hive / inventory / databaseDirectory / datadirectory /.

ПРИМЕЧАНИЕ. Это расположение HDFS ваших данных или ИСТОЧНИКА, которые нужно скопировать на S3. Обратите внимание, что если данные разделены на разделы, в каталоге каталога данных будет много подкаталогов. Ваш путь может отличаться от моего.

3. s3a: // {yourbucket} / {somedirectoryStructure} /

ПРИМЕЧАНИЕ. Это ЦЕЛЬ сегмента S3, куда ваши данные будут скопированы из ИСТОЧНИКА в 2.

Как только это будет завершено, войдите в консоль AWS и посмотрите в своей корзине и посмотрите, есть ли там данные.