Имаме процес на качване на файлове в S3. Всъщност това е косвено. Използваме Amazon Elastic MapReduce (EMR), а Hadoop предава файловете към S3 от много различни възли на задачи. След това, след като тази задача на Hadoop приключи успешно, друга част от процеса използва FileSystem.createNewFile() на Hadoop, за да създаде някои файлове от главния възел.
Файловете, които са създадени от тези различни машини, имат времеви отпечатъци в S3. Предполагаме, че времевите марки на файловете, ангажирани от възлите на задачите, са преди файловете, създадени от главния възел.
Вярвам, че понякога не е вярно, но защо?
Какво присвоява клеймото за време на S3 файл? Клиентът на Amazon EMR Hadoop ли е или някаква S3 машина?
Ако имам две машини, които качват в S3, чийто локален часовник се различава с 30 минути, времевите клейма ще бъдат ли на 30 минути?