当语法(iePURPLE或PURPAL)错误时,如何对csv文件中的颜色(蓝色、绿色、紫色、红色)进行分组?

2024-10-03 09:08:14 发布

您现在位置:Python中文网/ 问答频道 /正文

当语法(例如,case,spelling-Purple或PURPAL)在某些情况下错误时,如何使用Python对csv文件(50000行,下面的示例)中的颜色(蓝色、绿色、紫色、红色)进行分组?谢谢你的帮助

Blue      5642
Purpal    5640
red       5610
BLUE      5583
Red       5541
green     5523
Purple    5503
Green     5491
RED       5467
......

Tags: 文件csv示例颜色错误语法情况蓝色
1条回答
网友
1楼 · 发布于 2024-10-03 09:08:14

你需要清理你的数据。显然,这对于数据所处的任何情况都是唯一的,但是如果您试图识别拼写错误的颜色名称,那么可能会过滤数据帧以显示不是蓝色、绿色、紫色或红色的所有内容。你知道吗

您可以执行以下操作来识别不匹配项,然后找出如何修复它们。你知道吗

df.Color = df.Color.str.lower()
colors = ['blue', 'red', 'purple', 'green']
misspellings = df.Color[~df.Color.isin(colors)].values
print(misspellings)
['purpal']

从那里你可以单独修复每个条目或者写一些东西来智能地修复它们。这取决于你,但一旦你做了,你可以组正常。要修复“purpal”的条目,可以执行以下操作:

df.loc[df.Color == 'purpal', 'Color'] = 'purple' 

相关问题 更多 >