Мне не удалось найти прямых ответов, поэтому я подумал, что спрошу здесь.
Можно ли использовать ETL, например, AWS Glue, для выполнения агрегирования, чтобы снизить разрешение данных до AVG, MIN, MAX и т. Д. В произвольных временных диапазонах?
например - Учитывая 2000+ точек данных внешней температуры за последний месяц, используйте задание ETL, чтобы снизить это разрешение до 30 точек данных среднесуточных значений за последний месяц. (кроме фактического использования таких данных, просто пример).
Идея состоит в том, чтобы выполнять агрегирование, чтобы снизить разрешение данных, чтобы диаграммы, графики и т. Д. Отображали более длинные временные диапазоны больших наборов данных, поскольку нам не нужна каждая отдельная точка данных, которую мы должны затем динамически агрегировать на лету для эти диаграммы и графики.
Мои исследования пока предполагают, что ETL следует использовать только для преобразования данных 1 к 1, а не для преобразования 1000 к 1. Кажется, что ETL больше используется для преобразования данных в соответствующую структуру для хранения в базе данных, а не для агрегирования больших наборов данных.
Могу ли я использовать ETL для решения моих задач по агрегированию? Это будет в очень большом масштабе, реализовано с помощью AWS и Python.