Pandas Multiindex Вложенная сортировка и процент

Учитывая этот фрейм данных и сводную таблицу:

import pandas as pd
df=pd.DataFrame({'County':['A','A','A','A','A','B','B','B','B','A','A','A','A','A','B','B','B','B'],
                'Hospital':['a','b','c','d','e','a','b','c','e','a','b','c','d','e','a','b','c','e'],
                'Enrollment':[44,55,42,57,95,54,27,55,81,54,65,23,89,76,34,12,1,67],
                'Year':['2012','2012','2012','2012','2012','2012','2012','2012','2012','2013',
                        '2013','2013','2013','2013','2013','2013','2013','2013']})
d2=pd.pivot_table(df,index='Year',columns=['County','Hospital'])
d2
            Enrollment
County      A                   B
Hospital    a   b   c   d   e   a   b   c   e
Year                                    
2012       44   55  42  57  95  54  27  55  81
2013       54   65  23  89  76  34  12  1   67

Я хотел бы сделать следующее:

  1. Рассчитайте процент «зачисления» в больницу (по округам) за последний год следующим образом:

                Enrollment                              
    County      A                   B           
    Hospital    a   b   c   d   e   a   b   c   e
    Year                                    
    2012        44  55  42  57  95  54  27  55  81
    2013        54  65  23  89  76  34  12  1   67
    Percent     18% 21% 7%  29% 25% 30% 11% 1%  59%
    
  2. Отсортируйте столбцы по «Зачислению» (по убыванию) за последний год следующим образом:

                Enrollment                              
    County      A                   B           
    Hospital    d   e   b   a   c   e   a   b   c 
    Year                                    
    2012        57  95  55  44  42  81  54  27  55
    2013        89  76  65  54  23  67  34  12  1
    Percent     29% 25% 21% 18% 7%  59% 30% 11% 1%
    
  3. Возьмите 3 лучших больницы (с точки зрения регистрации за последний год) в каждом округе следующим образом:

                Enrollment                  
    County      A           B       
    Hospital    d   e   b   e   a   b 
    Year                        
    2012        57  95  55  81  54  27
    2013        89  76  65  67  34  12
    Percent     29% 25% 21% 59% 30% 11%
    

Заранее спасибо!

P.S. До сих пор я пытался сортировать, переставляя и используя графство и крайний правый столбец за последний год:

cnty=d2.T.index.names[1]
ryr=d2.T.columns[-1]
d2.T.sort_values([cnty,ryr],ascending=False)

... но я знаю, что мне нужно получить доступ к «Округу» по-другому, поскольку это не настоящий столбец.

Обновление:

Я могу рассчитать процент за последний год (и отфильтровать), переставив и используя group by, хотя я уверен, что есть более эффективный способ.

d=d2.T
d['Percent']=(d.iloc[:,-1]/d.iloc[:,-1].sum()*100)

Заранее спасибо!


person Dance Party2    schedule 10.06.2016    source источник


Ответы (2)


Ты мог:

df = pd.concat([df, df.groupby(level='County').apply(lambda x: x['2013'].div(x['2013'].sum())).reset_index(0, drop=True).to_frame('Percent')], axis=1)
top_3 = df.groupby(level='County')['Percent'].nlargest(3).reset_index(0, drop=True)
df = pd.concat([df.drop('Percent', axis=1), top_3], axis=1, join='inner')
df.groupby(level=1).apply(lambda x: x.sort_values('Percent', ascending=False)).reset_index(0, drop=True).T

получить:

                 A                                B                      
                 d          e          b          e          a          b
Year                                                                     
2012     57.000000  95.000000  55.000000  81.000000  54.000000  27.000000
2013     89.000000  76.000000  65.000000  67.000000  34.000000  12.000000
Percent   0.289902   0.247557   0.211726   0.587719   0.298246   0.105263
person Stefan    schedule 10.06.2016
comment
Спасибо. Также это: d.sort_values(d2.T.columns[-1],ascending=False).sortlevel(1, sort_remaining=False) как указано Джезраэлем здесь: stackoverflow.com/questions/37147822/ - person Dance Party2; 10.06.2016

Итак, я обнаружил, что это тоже работает:

d=d2.T
d['Percent']=round(d.iloc[:,-1]/d.iloc[:,-1].groupby(level=1).transform(sum),2)
d=d.sort_values(d.columns[-1],ascending=False).sortlevel(1, sort_remaining=False)
d=d.groupby(level=1).head(3)
d.T
person Dance Party2    schedule 10.06.2016