我已经能够从网站上抓取数据,但由于电子商务项目中缺少一些值,数据不一致,我使用beautifulsoup获取数据, 下面是一个示例数据集,其中评级紧跟在产品名称之后,有些没有,后面紧跟着另一个产品名称,因此在这方面,我想将它们设置为“无评级”。 这是我第一次成为python的新手 提前谢谢
data = ['Samsung Galaxy A12 ',
'5 out of 5(6)',
'Screenguard',
'Samsung Galaxy Mos / A02s ',
'4 out of 5(1)'
'Pillow']
实际上,我想将其转换为一个基于后续评级(5(6)中的5)的数据框架,在某些项目下,有些项目有评级,而有些项目没有评级,这就是为什么它们在数据中不一致的原因
下面是预期的数据帧
product ratings
Samsung Galaxy A12 5 out of 5(6)
Screenguard No rating
Samsung Mos / A02s 4 out of 5(1)
Pillow No rating
这适用于发布的数据,但我建议您调整用于刮取的代码,以便在找不到评级时返回“无评级”
正如在评论中提到的,我认为在清理时处理这个问题更好/更干净
这是一个我认为可以解决你问题的代码
输出
相关问题 更多 >
编程相关推荐