У меня есть данные в Azure Data Lake Store, и я обрабатываю имеющиеся там данные с помощью Azure Data Analytic Job с U-SQL. У меня есть несколько файлов CSV, которые содержат пространственные данные, подобные этому:
Файл_20170301.csv
longtitude| lattitude | date | hour | value1
----------+-----------+--------------+------+-------
45.121 | 21.123 | 2017-03-01 | 01 | 20
45.121 | 21.123 | 2017-03-01 | 02 | 10
45.121 | 21.123 | 2017-03-01 | 03 | 50
48.121 | 35.123 | 2017-03-01 | 01 | 60
48.121 | 35.123 | 2017-03-01 | 02 | 15
48.121 | 35.123 | 2017-03-01 | 03 | 80
Файл_20170302.csv
longtitude| lattitude | date | hour | value1
----------+-----------+--------------+------+-------
45.121 | 21.123 | 2017-03-02 | 01 | 20
45.121 | 21.123 | 2017-03-02 | 02 | 10
45.121 | 21.123 | 2017-03-02 | 03 | 50
48.121 | 35.123 | 2017-03-02 | 01 | 60
48.121 | 35.123 | 2017-03-02 | 02 | 15
48.121 | 35.123 | 2017-03-02 | 03 | 80
Каждый файл содержит данные за разные дни и для всех комбинаций широты и долготы.
Я хотел бы объединить все файлы, которые у меня есть, и разделить данные, чтобы в итоге я мог получить один файл для каждой комбинации долготы и широты.
Итак, после просмотра всех файлов в моей папке и добавления всех данных за все дни я получил бы следующее:
Файл_45_21.csv
longtitude| lattitude | date | hour | value1
----------+-----------+--------------+------+-------
45.121 | 21.123 | 2017-03-01 | 01 | 20
45.121 | 21.123 | 2017-03-01 | 02 | 10
45.121 | 21.123 | 2017-03-01 | 03 | 50
45.121 | 21.123 | 2017-03-02 | 01 | 20
45.121 | 21.123 | 2017-03-02 | 02 | 10
45.121 | 21.123 | 2017-03-02 | 03 | 50
Файл_48_35.csv
longtitude| lattitude | date | hour | value1
----------+-----------+--------------+------+-------
48.121 | 35.123 | 2017-03-01 | 01 | 60
48.121 | 35.123 | 2017-03-01 | 02 | 15
48.121 | 35.123 | 2017-03-01 | 03 | 80
48.121 | 35.123 | 2017-03-02 | 01 | 60
48.121 | 35.123 | 2017-03-02 | 02 | 15
48.121 | 35.123 | 2017-03-02 | 03 | 80
Теоретически должно произойти следующее:
- Найдите различные значения для комбинации долготы и широты в данных
- возьмите приведенный выше массив различных значений и создайте файл для каждой комбинации и извлеките в него данные из исходных файлов на основе двух параметров (долгота и широта)
Я борюсь с тем, как начать зацикливание и извлечение данных на основе двух параметров в источнике и как «разделить» источник данных на отдельные значения комбинации параметров.