DataFrame: как найти значение в одном столбце для квантиля во втором столбце

У меня есть DataFrame, показанный ниже, с датами, смещением и количеством.

Например, это начало фрейма данных

df = pd.DataFrame(np.array([['2018-01-01', 0, 1], ['2018-01-01', 26, 2], ['2018-01-01', 178, 8], ['2018-01-01', 187, 10], ['2018-01-01', 197, 13], ['2018-01-01', 208, 15], ['2018-01-01', 219, 16], ['2018-01-01', 224, 19],['2018-01-01', 232, 21], ['2018-01-01', 233, 25], ['2018-01-01', 236, 32],['2018-01-02', 0, 1], ['2018-01-02', 11, 4], ['2018-01-02', 12, 7], ['2018-01-02', 20, 12], ['2018-01-02', 35, 24], ]), columns=['obs_date', 'offset', 'count'])

    obs_date    offset  count
0   2018-01-01  0       1
1   2018-01-01  26      2
2   2018-01-01  178     8
3   2018-01-01  187     10
4   2018-01-01  197     13
5   2018-01-01  208     15
6   2018-01-01  219     16
7   2018-01-01  224     19
8   2018-01-01  232     21
9   2018-01-01  233     25
10  2018-01-01  236     32
11  2018-01-02  0       1
12  2018-01-02  11      4
13  2018-01-02  12      7
14  2018-01-02  20      12
15  2018-01-02  35      24

и т.д

Я хотел бы получить (кумулятивный) ['count'] квантиль [0,25, 0,5, 0,75] для каждой даты и найти строку с ['смещением'], к которой применяется этот квантиль. общее количество для каждой даты будет различным, а смещения не регулярны, поэтому для 2018-01-01 дата и смещение соответствуют счетам 8, 16 и 24 (0,25, 0,5, 0,75 * 32)

что-то типа

0   2018-01-01  178     0.25
1   2018-01-01  219     0.5
2   2018-01-01  232.75  0.75
3   2018-01-02  43      0.25
etc     

person CestLaGalere    schedule 06.03.2019    source источник
comment
Я смущен. Вы хотите установить квантиль на основе какого столбца? А какой столбец кончает?   -  person Mohit Motwani    schedule 06.03.2019


Ответы (1)


Это сработало для меня:

df['count'] = df['count'].astype(int)
quantiles = [.25, .5, .75]

def get_offset(x):
    s = x['count']
    indices = [(s.sort_values()[::-1] <= s.quantile(q)).idxmax() for q in quantiles]
    return df.iloc[indices, x.columns.get_loc('offset')]

res = df.groupby('obs_date').apply(get_offset).reset_index(level=0)

Затем вы можете concat с квантилями:

pd.concat([res.reset_index(drop=True), pd.Series(quantiles * df.obs_date.nunique())], axis=1)

    obs_date    offset  0
0   2018-01-01  178     0.25
1   2018-01-01  208     0.50
2   2018-01-01  224     0.75
3   2018-01-02  11      0.25
4   2018-01-02  12      0.50
5   2018-01-02  20      0.75
person Josh Friedlander    schedule 06.03.2019
comment
спасибо, но выглядит не совсем правильно - я бы ожидал, что строка 2 будет читать 232 или 233, поскольку Q3 находится между строкой 8/9 - на самом деле это не квантиль (), поскольку я ищу значение 0,75 * 32, а не значение то есть 3/4 пути по списку, эти коды дают мне хорошее начало, поэтому я ожидаю создать столбец max_count и столбец пропорций (count / max_count) и найти значения, используя idmax таким образом? - person CestLaGalere; 06.03.2019
comment
второстепенный мод - добавлен столбец max_count и из него получен df ['propn'] = df '[count'] / df ['max_count']. отсюда строки get_offset - это просто s = x ['propn'] indices = [(s.sort_values ​​() [:: - 1] ‹= q) .idxmax () для q в квантилях]. - person CestLaGalere; 06.03.2019
comment
Да, я заметил, что мои ценности немного отличаются. Я видел, что вы приняли ответ, спасибо! Так что, разобрались? - person Josh Friedlander; 06.03.2019
comment
Это было очень полезно, спасибо - дало мне структуру, необходимую для ее разработки - для тех, кто придет позже - не нуждался в методе .quartile (), поскольку это совокупный подсчет, а не наблюдения - person CestLaGalere; 06.03.2019
comment
отлично :) не стесняйтесь редактировать мой ответ или размещать свой собственный - person Josh Friedlander; 07.03.2019