Получите уникальные значения и их вхождение из одного фрейма данных в новый фрейм данных с помощью Pandas DataFrame

Я хочу превратить мой фрейм данных с неотличимыми значениями под каждым заголовком столбца в фрейм данных с отдельными значениями под каждым заголовком столбца с рядом с ним их вхождением в их конкретный столбец. Пример:

Мой исходный фрейм данных виден внизу:

A       B       C       D
0       CEN     T2      56
2       DECEN   T2      45
3       ONBEK   T2      84
NaN     CEN     T1      59
3       NaN     T1      87
NaN     NaN     T2      NaN
0       NaN     NaN     98
NaN     CEN     NaN     23
NaN     CEN     T1      65

где A, B, C и D - заголовки столбцов с каждыми 9 значениями под ними (включая пробелы).

Мой предпочтительный выходной кадр данных должен выглядеть так: (сначала столбец уникальных значений для каждого столбца в исходном кадре данных, а рядом с ним - их появление в этом конкретном столбце)

A       B       C       D       A       B       C       D
0       CEN     T2      56      2       4       4       1
2       DECEN   T1      45      1       1       3       1
3       ONBEK   NaN     84      2       1       NaN     1
Nan     NaN     NaN     59      NaN     NaN     NaN     1
NaN     NaN     NaN     87      NaN     NaN     NaN     1
NaN     NaN     NaN     98      NaN     NaN     NaN     1
NaN     NaN     NaN     23      NaN     NaN     NaN     1
NaN     NaN     NaN     65      NaN     NaN     NaN     1

где A, B, C и D - заголовки столбцов, под которыми сначала указаны отдельные значения для каждого столбца из исходного .csv-файла, а затем - наличие каждого элемента в соответствующем столбце.

Есть идеи?

Приведенный ниже код используется для получения уникальных значений из каждого столбца в новый фрейм данных. Я попытался сделать что-то с .value_counts, чтобы получить вхождение в каждом столбце, но мне не удалось снова поместить его в один фрейм данных с уникальными значениями ..

df
new_df=pd.concat([pd.Series(df[i].unique()) for i in df.columns], axis=1)
new_df.columns=df.columns
new_df

Matthi9000 14.02.2020 источник

comment

столбец D имеет NaN на входе, но не на выходе? - anky 14.02.2020

comment

Ну, мой DataFrame читается из файла .csv. и Python считывает пустые ячейки как NaN в DataFrame ... поэтому он действительно не должен отображаться в выводе ;-) (если я прав) - Matthi9000 14.02.2020

Ответы (1)

arrow_upward
1
arrow_downward

Сложность заключается в том, чтобы выровнять значения столбцов в каждой строке. Для этого вам необходимо построить новый фрейм данных из unique и pd.concat с value_counts картой для каждого столбца этого нового фрейма данных.

new_df = (pd.DataFrame([df[c].unique() for c in df], index=df.columns).T
            .dropna(how='all'))

df_final = pd.concat([new_df, *[new_df[c].map(df[c].value_counts()).rename(f'{c}_Count') 
                                   for c in  df]], axis=1).reset_index(drop=True)

Out[1580]:
     A      B    C   D  A_Count  B_Count  C_Count  D_Count
0    0    CEN   T2  56      2.0      4.0      4.0        1
1    2  DECEN   T1  45      1.0      1.0      3.0        1
2    3  ONBEK  NaN  84      2.0      1.0      NaN        1
3  NaN    NaN  NaN  59      NaN      NaN      NaN        1
4  NaN    NaN  NaN  87      NaN      NaN      NaN        1
5  NaN    NaN  NaN  98      NaN      NaN      NaN        1
6  NaN    NaN  NaN  23      NaN      NaN      NaN        1
7  NaN    NaN  NaN  65      NaN      NaN      NaN        1

Если вам нужно только сохранить выравнивание между каждой парой столбцов и их счетчиком, например A - A_Count, B - _8 _..., просто используйте value_counts с reset_index некоторыми командами для изменения имен осей.

cols = df.columns.tolist() + (df.columns + '_Count').tolist()
new_df = pd.concat([df[col].value_counts(sort=False).rename_axis(col).reset_index(name=f'{col}_Count') 
                        for col in df], axis=1).reindex(new_cols, axis=1)

Out[1501]:
     A      B    C     D  A_Count  B_Count  C_Count  D_Count
0  0.0  ONBEK   T2  56.0      2.0      1.0      4.0        1
1  2.0    CEN   T1  45.0      1.0      4.0      3.0        1
2  3.0  DECEN  NaN  84.0      2.0      1.0      NaN        1
3  NaN    NaN  NaN  59.0      NaN      NaN      NaN        1
4  NaN    NaN  NaN  87.0      NaN      NaN      NaN        1
5  NaN    NaN  NaN  98.0      NaN      NaN      NaN        1
6  NaN    NaN  NaN  23.0      NaN      NaN      NaN        1
7  NaN    NaN  NaN  65.0      NaN      NaN      NaN        1

Andy L. 14.02.2020

comment

Вот оно, идеально !! Нет ли возможности получить тот же результат, что и в первом варианте, кроме сброса индекса (теперь номер 5 отсутствует)? Вы хоть представляете, почему некоторые значения сохраняются как целые числа (например, «1», а другие - как десятичные (например, «1.0»)? - Matthi9000; 14.02.2020

comment

@ Matthi9000: О, это просто. Просто добавьте дополнительный reset_index(drop=True). Я отредактировал ответ. В 1 и 1.0, когда столбец имеет значение NaN, его dtype принудительно устанавливается на float, поэтому 1 преобразуется в 1.0 - Andy L.; 14.02.2020

Получите уникальные значения и их вхождение из одного фрейма данных в новый фрейм данных с помощью Pandas DataFrame

Ответы (1)

Похожие вопросы