Использование ETL для агрегирования

Мне не удалось найти прямых ответов, поэтому я подумал, что спрошу здесь.

Можно ли использовать ETL, например, AWS Glue, для выполнения агрегирования, чтобы снизить разрешение данных до AVG, MIN, MAX и т. Д. В произвольных временных диапазонах?

например - Учитывая 2000+ точек данных внешней температуры за последний месяц, используйте задание ETL, чтобы снизить это разрешение до 30 точек данных среднесуточных значений за последний месяц. (кроме фактического использования таких данных, просто пример).

Идея состоит в том, чтобы выполнять агрегирование, чтобы снизить разрешение данных, чтобы диаграммы, графики и т. Д. Отображали более длинные временные диапазоны больших наборов данных, поскольку нам не нужна каждая отдельная точка данных, которую мы должны затем динамически агрегировать на лету для эти диаграммы и графики.

Мои исследования пока предполагают, что ETL следует использовать только для преобразования данных 1 к 1, а не для преобразования 1000 к 1. Кажется, что ETL больше используется для преобразования данных в соответствующую структуру для хранения в базе данных, а не для агрегирования больших наборов данных.

Могу ли я использовать ETL для решения моих задач по агрегированию? Это будет в очень большом масштабе, реализовано с помощью AWS и Python.


person Alpenglow    schedule 19.05.2017    source источник
comment
Я не могу комментировать применимость AWS к такой задаче, но хотел бы упомянуть, что ETL может включать агрегацию строк данных, которая часто выполняется с использованием SQL GROUP BY. Если вы не обязаны использовать AWS, то существуют различные решения на чистом Python, которые могут работать, очевидно, в зависимости от деталей вашей ситуации.   -  person Bill Bell    schedule 19.05.2017
comment
ETL - это общая концепция, а не конкретное решение. Это намного шире, чем показали ваши исследования. Ведение агрегатных таблиц и таблиц измерений в хранилищах данных - распространенные сценарии ETL, и в любом из них очень мало 1: 1.   -  person Cyrus    schedule 22.05.2017


Ответы (1)


Буква «T» в ETL означает «преобразование», и агрегация является одной из наиболее распространенных. Вкратце: да, ETL может сделать это за вас. Остальное зависит от конкретных потребностей. Вам нужна детализация? Возможно, увеличение разрешения при зуме? Это повлияет на весь дизайн, но в целом подготовка данных для уровня представления - это именно то, для чего используется ETL.

person Maciejg    schedule 22.05.2017