Обединяване на два нередовни кадъра с данни в Python

Имам два кадъра с данни df1 и df2

    ID      Range(US)            Count(US)          Mean(US)
0   690      1-3                 266                4.0
1            4-7                 277                NaN
2   354      1-3                 233                2.0
3            4-7                 85                 NaN
4   947      1-3                 156                4.0

    ID   Range(UK)           Count(UK)          Mean(UK)
0   690      1-3                 186                4.0
1            4-7                 25                 NaN
2   354      1-3                 44                 1.0
3   947      1-3                 213                3.0
4            4-7                 33                 NaN

Обединих с кода:
In:df=df1.merge(df2, left_on='deviceid',right_on='deviceid', how='left') df

 ID  Range(US)   Count(US)    Mean(US)   Range(UK)  Count(UK)    Mean(UK)       
 0  690    1-3      266         4.0        1-3        186         4.0
 1         4-7      277         NaN        4-7        25          NaN
 2         4-7      277         NaN        4-7        33          NaN
 3  354    1-3      233         2.0        1-3        44          1.0
 4         4-7      85          NaN        4-7        25          NaN
 5         4-7      85          NaN        4-7        33          NaN
 6  947    1-3      156         4.0        1-3        213         3.0

От горното виждаме, че стойностите се повтарят отново за някои стойности, ако не присъстват

Но очакваният резултат е

   ID  Range(US)   Count(US)  Mean(US)   Range(UK)  Count(UK)    Mean(UK)       
 0  690    1-3      266         4.0        1-3        186         4.0
 1         4-7      277         NaN        4-7        25          NaN
 2  354    1-3      233         2.0        1-3        44          1.0
 3         4-7      85          NaN        Nan        NaN         NaN
 4  947    1-3      156         4.0        1-3        213         3.0
 5         4-7      Nan         Nan        4-7        33          Nan

san 05.06.2018 източник

Отговори (1)

arrow_upward
1
arrow_downward

Първо премахнете, като замените duplicated ID и в двете DataFrames:

#df1['ID'] = df1['ID'].mask(df['ID'].duplicated(), '') 
#df2['ID'] = df2['ID'].mask(df['ID'].duplicated(), '') 

print (df1)
    ID Range(US)  Count(US)  Mean(US)
0  690       1-3        266       4.0
1  690       4-7        277       NaN
2  354       1-3        233       2.0
3  354       4-7         85       NaN
4  947       1-3        156       4.0

print (df2)
    ID Range(UK)  Count(UK)  Mean(UK)
0  690       1-3        186       4.0
1  690       4-7         25       NaN
2  354       1-3         44       1.0
3  947       1-3        213       3.0
4  947       4-7         33       NaN

И след това обединете и двете колони с външно съединение:

df = df1.merge(df2, left_on=['ID', 'Range(US)'], right_on=['ID', 'Range(UK)'], how='outer')
print (df)
    ID Range(US)  Count(US)  Mean(US) Range(UK)  Count(UK)  Mean(UK)
0  690       1-3      266.0       4.0       1-3      186.0       4.0
1  690       4-7      277.0       NaN       4-7       25.0       NaN
2  354       1-3      233.0       2.0       1-3       44.0       1.0
3  354       4-7       85.0       NaN       NaN        NaN       NaN
4  947       1-3      156.0       4.0       1-3      213.0       3.0
5  947       NaN        NaN       NaN       4-7       33.0       NaN

jezrael 05.06.2018

comment

df1['ID'] = df1['ID'].mask(df['ID'].duplicated(), '') какво е df тук? - san; 05.06.2018

comment

@san - това е правописна грешка, трябва #df1['ID'] = df1['ID'].mask(df1['ID'].duplicated(), '') #df2['ID'] = df2['ID'].mask(df2['ID'].duplicated(), '') - jezrael; 05.06.2018

comment

все още не получава очаквания резултат - san; 05.06.2018

comment

ако промените outer на left или inner помага ли? - jezrael; 05.06.2018

comment

Можете ли да обясните повече? Проблемът е с реални данни? Или ако използвате примерни данни, данните получават различен резултат като мен в отговор? - jezrael; 05.06.2018

comment

Получих различен отговор за тези примерни данни - san; 05.06.2018

comment

Вашите df1 и df2 като отговор ли са? Колона ID е попълнена с повтарящи се числа, няма бели интервали.. - jezrael; 05.06.2018

comment

@san - да, и това е проблем. нужда от числови стойности. - jezrael; 05.06.2018

comment

как да попълня 0 за всички nan стойности? - san; 05.06.2018

comment

Супер, , използвай df = df.fillna(0) - jezrael; 05.06.2018

comment

ValueError: стойността за попълване трябва да е в категории - san; 05.06.2018

comment

хммм, има проблем с Range колони, защото категоричните. Дай ми малко време за решение. - jezrael; 05.06.2018

comment

Каква е вашата версия на пандите? - jezrael; 05.06.2018

comment

0.23.0 е моята версия на pandas - san; 05.06.2018

comment

Не мога да го симулирам, но решението трябва да е df1['Range(US)'] = df1['Range(US)'].cat.add_categories([0]) и df2['Range(UK)'] = df2['Range(UK)'].cat.add_categories([0]) преди merge - jezrael; 05.06.2018

comment

страхотно работи перфектно, но можем ли да изтрием дубликати за целия кадър с данни? - san; 05.06.2018

comment

хм, труден въпрос. От вас зависи каква нужда. Но ако е необходимо, премахнете дубликатите решението трябва да помогне - jezrael; 05.06.2018

comment

Нека продължим тази дискусия в чата. - san; 06.06.2018

Обединяване на два нередовни кадъра с данни в Python

Отговори (1)

Подобни въпроси