我有一个有两列的数据框。列是Word和Tag。df如下所示:
Word Tag
0 DNA O
1 , O
2 adalah O
3 ) X
4 , Y
5 ikatan P
6 10 O
7 , O
8 4 Q
9 pasangan Q
10 abad A
11 20 B
12 , C
13 bersamaan D
我想把一些包含带有逗号,
{
Word Tag
0 DNA O
1 , O
2 adalah O
3 ) X
4 , Y
5 ikatan P
6 10,4 O
7 pasangan Q
8 abad A
9 20 B
10 , C
11 bersamaan D
有什么想法吗?提前谢谢
我试过:
coma = df['Word'].shift().ne(',').mul(df['Word'].ne(',')).cumsum()
new_df = df.groupby(coma, as_index=False).agg({'Word' : ''.join, 'Tag' : 'first'})
print(new_df)
但它也结合了单词和逗号,同时我只想结合数字和逗号
一个想法是在
,
前后使用测试数字来识别值,创建组并聚合join
和first
:相关问题 更多 >
编程相关推荐