删除datafram中的类似单词

2024-05-07 11:41:48 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个数据框,我想删除任何形式的“XXXX”的出现,因为我的数据在很多方面都有这个词的出现。例如,我的数据帧看起来像这样

['XXXX/XXXX/16'、'{'、'$'、'39.00'、'}'、'XXXX/XXXX/2016'、'.'、'Overside'、'charges'、'Wauld'、'like'、'dispute'、'dispute'、' 'XX/XX/XXXX','date','last','payment',',','last','payment','made','XX/XX/XXXX'] ['Collector'、'calls'、'non'、'stop'、'XXXX/XXXX/15' 'Med'、'XXXXXXXX'、'{'、'290.00'、'}'、'XX/XX/XXXX-XX/XX/XXXX']

所需输出应删除上述任何形式的“XX”的所有出现。

我在这里使用的代码是

stop =  ['XXXX', "XX/XX"]
df['issue_detail'] = df['issue_detail'].apply(lambda x: [item for item in x if item not in stop])

上面的代码只是从pandas数据框中删除“XXXX:的出现,但是您应该如何删除XXXX出现的其余部分,它们的形式与上面的不同


Tags: 数据代码indfissuepaymentitem形式
1条回答
网友
1楼 · 发布于 2024-05-07 11:41:48

好像你在找正则表达式。如果我对你的问题理解正确,this question与你的问题有很大关系。你知道吗

  1. 创建正则表达式
  2. 在数据帧上应用df.column_name.str.match。这将为每一行创建一个包含TrueFalse的数据帧。你知道吗
  3. 根据上一步中完成的匹配过滤数据帧。你知道吗

查看this特定答案以查看相关代码。你知道吗

相关问题 更多 >