У нас есть процесс загрузки файлов на S3. На самом деле он косвенный. Мы используем Amazon Elastic MapReduce (EMR), а Hadoop фиксирует файлы в S3 из множества разных узлов задач. Затем, после успешного завершения этого задания Hadoop, другая часть процесса использует FileSystem.createNewFile() Hadoop для создания некоторых файлов из главного узла.
Файлы, созданные на этих различных машинах, имеют временные метки в S3. Мы предполагаем, что временные метки файлов, зафиксированных на узлах задач, предшествуют файлам, созданным на главном узле.
Я считаю, что иногда это неверно, но почему?
Что назначает временную метку файлу S3? Это клиент Amazon EMR Hadoop или какая-то машина S3?
Если у меня есть две машины, выполняющие загрузку на S3, чьи локальные часы отличаются на 30 минут, будут ли метки времени отличаться друг от друга на 30 минут?