Pandas group by one column将另一列的值连接为分隔的lis

JobID Job Title Qualification ID Qualification Name 34455226 .Net Developer ICT50715 Diploma of Software Development 34455226 .Net Developer ICT40515 Certificate IV in Programming 34466933 .Net Developer ICT50715 Diploma of Software Development 34466111 .Net Developer ICT50655 Diploma of Software Testing 34479964 Snr Finance Systems Analyst

Job Title Qualifications .Net Developer Diploma of Software Development,Certificate IV in Programming,Diploma of Software Development,Diploma of Software Testing Snr Finance Systems Analyst N/A

1条回答

网友

1楼 · 发布于 2024-10-01 15:48:42

如果需要唯一字符串s：

您可以添加set或{a1}，如果可能，还可以添加一些Nones或{}s添加^{}：

df1 = (df.groupby('Job Title')['Qualification Name']
       .apply(lambda x: ','.join(set(x.dropna())))
       .reset_index())

print (df1)
                     Job Title  \
0               .Net Developer   
1  Snr Finance Systems Analyst   

                                  Qualification Name  
0  Diploma of Software Development,Diploma of Sof...  
1

如果顺序很重要：

^{pr2}$

如果想要NaNs表示没有值：

def f(x):
    val = set(x.dropna())
    if len(val) > 0:
        val = ','.join(val)
    else:
        val = np.nan
    return val

df2 = df.groupby('Job Title')['Qualification Name'].apply(f).reset_index()
print (df2)
                     Job Title  \
0               .Net Developer   
1  Snr Finance Systems Analyst   

                                  Qualification Name  
0  Diploma of Software Development,Diploma of Sof...  
1                                                NaN

如果需要唯一列表s：

df2 = (df.groupby('Job Title')['Qualification Name']
       .apply(lambda x: list(set(x)))
       .reset_index())

print (df2)
                     Job Title  \
0               .Net Developer   
1  Snr Finance Systems Analyst   

                                  Qualification Name  
0  [Diploma of Software Development, Diploma of S...  
1                                             [None]  

df2 = (df.groupby('Job Title')['Qualification Name']
       .apply(lambda x: list(x.unique()))
       .reset_index())

print (df2)
                     Job Title  \
0               .Net Developer   
1  Snr Finance Systems Analyst   

                                  Qualification Name  
0  [Diploma of Software Development, Certificate ...  
1                                             [None]

相关问题更多 >

编程相关推荐

热门问题

热门文章