这是我的数据集
id descriptions
0 kartu debit 20 10 indomaretcipete r
1 tarikan atm 20 10
2 tarikan atm 19 10
3 biaya adm
4 trsf 18 10 wsid 23881 indah lestari
我就是这么做的
def cleaning(text):
stops = {'10', '18','19', '20', '23881'}
text = [word for word in text if not word in stops]
text = " ".join(text)
return(text)
df['description_clean'] = df['description'].apply(cleaning)
这是我得到的
id descriptions
0 kartu debit indomaretcipete r
1 tarikan atm
2 tarikan atm
3 biaya adm
4 trsf wsid indah lestari
这不是有效的我不断添加新的数字,以改善停止词,如何在一个时间?你知道吗
使用^{} 和^{} :
或:
或:
您需要:
IIUC,您需要从数据帧中删除数字,请使用以下命令:
对于一个系列:
df['descriptions']=df['descriptions'].replace('\d+ ','',regex=True)
注意:我在regex中的
d+
之后添加了一个空格,这取决于您的示例,如果您愿意,可以不使用它。你知道吗相关问题 更多 >
编程相关推荐