我有一个巨大的数据集用于清理,还有一个名为comment的列,它应该只有文本,但它包含很多空格,绝对不统一的特殊字符,有点像
,. .....
!!!!.....JR,,,,,!!!
1.....666....888.!!
而且更多的是,它们都混在一起了,我不得不删除那些除了文本之外包含任何内容的行
我试图用regex编写一个函数,它搜索列中除了字母以外的所有内容,并试图根据这个结果删除它。 我对python非常陌生,并且使用数据。如果我与实际答案相去甚远,请原谅
def func(comments):
for x in comments:
if x == re.findall(r'\W+',x):
df.drop(['comments'], inplace = True)
df['comments'].apply(lambda x: func(x))
数据是这样的
ID reviwer name reviwer_listing_id comments
37830 miyuki 83920 wonderful!!
327823 tiooowww 383924 ....
expected
ID reviwer name reviwer_listing_id comments
37830 miyuki 83920 wonderful!!
我得到的错误是 当我试图运行此代码时,它会向我显示类型错误的错误消息:
'float' object is not iterable
目前没有回答
相关问题 更多 >
编程相关推荐