在数据框中用分隔符分隔列中的字符串，并将子字符串添加到单独的列中

df = pd.DataFrame({ "EmailAdds": ["pamelasilvera@gmail.com; adarandall@gmail.com; larryjacob@orange.com", "indiejesse.d@gmail.com"], "Subject": ["Report submission", "Meeting update"] })

df = pd.DataFrame({ "EmailAdds": ["pamelasilvera@gmail.com; adarandall@gmail.com; larryjacob@orange.com", "indiejesse.d@gmail.com"], "Subject": ["Report submission", "Meeting update"], "EmailAdds_roots": ["pamelasilvera adarandall larryjacob", "indiejesse"], "EmailAdds_domains":["gmail orange", "gmail"] })

3条回答

网友

1楼 · 编辑于 2024-10-03 02:42:11

这里有一个满嘴的：

emails = df['EmailAdds'].str.split(';').explode()
df = df.join(
         emails.str.split('@', expand=True) \
         .fillna('') \
         .groupby(level=0) \
         .agg(
             { 0: ' '.join,
               1: lambda x: ' '.join(set(x))}
         ).rename(columns=['EmailAdds_roots', 'EmailAdds_domains'].__getitem__)
     )

结果:

          EmailAdds            Subject  \
0  pamelasilvera@gmail.com; adarandall@gmail.com;...  Report submission   
1                             indiejesse.d@gmail.com     Meeting update   

                         EmailAdds_roots     EmailAdds_domains  
0  pamelasilvera  adarandall  larryjacob  gmail.com orange.com  
1                           indiejesse.d             gmail.com

另一种更具可读性的版本是：

emails = df['EmailAdds'].str.split(';').explode() \
            .str.split('@', expand=True).fillna('') \
            .groupby(level=0)
df['EmailAdds_roots'] = emails[0].agg(list).str.join(' ')
df['EmailAdds_domains'] = emails[1].unique().str.join(' ')

网友

2楼 · 编辑于 2024-10-03 02:42:11

我们还可以将str.extract与命名的正则表达式组一起使用：

df.join(df.EmailAdd.str.extract('^(?P<Email>[^@]+)@(?P<Domain>.+)'))

输出：

                  EmailAdd            Subject          Email     Domain
0  pamelasilvera@gmail.com  Report submission  pamelasilvera  gmail.com
1   indiejesse.d@gmail.com     Meeting update   indiejesse.d  gmail.com

网友

3楼 · 编辑于 2024-10-03 02:42:11

我们用str.split做join

df=df.join(df.EmailAdd.str.split('@',expand=True))
Out[138]: 
                  EmailAdd            Subject              0          1
0  pamelasilvera@gmail.com  Report submission  pamelasilvera  gmail.com
1   indiejesse.d@gmail.com     Meeting update   indiejesse.d  gmail.com

相关问题更多 >

编程相关推荐

热门问题

热门文章