如何根据几个条件从数据集中删除行

2024-10-02 04:18:58 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个巨大的数据集用于清理,还有一个名为comment的列,它应该只有文本,但它包含很多空格,绝对不统一的特殊字符,有点像

 ,.    .....
!!!!.....JR,,,,,!!!
1.....666....888.!!

而且更多的是,它们都混在一起了,我不得不删除那些除了文本之外包含任何内容的行

我试图用regex编写一个函数,它搜索列中除了字母以外的所有内容,并试图根据这个结果删除它。 我对python非常陌生,并且使用数据。如果我与实际答案相去甚远,请原谅

def func(comments):
    for x in comments:
        if x == re.findall(r'\W+',x):
            df.drop(['comments'], inplace = True)
df['comments'].apply(lambda x: func(x))

数据是这样的

ID           reviwer name     reviwer_listing_id        comments
37830          miyuki            83920                wonderful!!
327823         tiooowww          383924                  ....

expected 
ID           reviwer name     reviwer_listing_id        comments
37830          miyuki            83920                wonderful!!

我得到的错误是 当我试图运行此代码时,它会向我显示类型错误的错误消息:

'float' object is not iterable

Tags: 数据name文本id内容df错误comment

热门问题