У меня есть каталог из 100 таблиц в каталоге AWS Glue формата:
user_1
user_2
...
user_100
Каждая таблица имеет такой формат:
| id | user_id | date | expense |
|----|---------|----------|---------|
| 1 | 1 | 20200521 | 200 |
| 2 | 2 | 20200601 | 100 |
| 3 | 1 | 20200603 | 90 |
Каждая таблица имеет одинаковую схему, в которой один столбец является расходом (тип int). Строки каждого пользователя случайным образом вставляются в одну из этих 100 таблиц.
Что я хочу сделать, так это проверить сумму столбца расходов каждой из таблиц для данного пользователя.
Каков наиболее эффективный способ сделать это, а не создавать 100 динамических кадров и соединять их. Я предполагаю, что мне нужно создать 100 источников данных для каждой таблицы, но есть ли более простой способ выбрать строки для данного пользователя из всех 100 таблиц и получить сумму?
Спасибо.
view
из всех этих таблиц (объедините все user_1...100) и запросите сразу. синтаксис — docs.databricks.com/spark/ последняя версия/spark-sql/язык-руководство/ - person Som   schedule 03.06.2020