Я использую s3disctcp для копирования 31 16 886 файлов (300 ГБ) с S3 в HDFS, и мне потребовалось 4 дня, чтобы просто скопировать 10 48 576 файлов. Я убил задание, и мне нужно понять, как я могу сократить это время или что я делаю неправильный.
s3-dist-cp --src s3://xml-prod/ --dest hdfs:///Output/XML/
Это на машине AWS EMR.