2024-10-03 09:08:14 发布
网友
当语法(例如,case,spelling-Purple或PURPAL)在某些情况下错误时,如何使用Python对csv文件(50000行,下面的示例)中的颜色(蓝色、绿色、紫色、红色)进行分组?谢谢你的帮助
Blue 5642 Purpal 5640 red 5610 BLUE 5583 Red 5541 green 5523 Purple 5503 Green 5491 RED 5467 ......
你需要清理你的数据。显然,这对于数据所处的任何情况都是唯一的,但是如果您试图识别拼写错误的颜色名称,那么可能会过滤数据帧以显示不是蓝色、绿色、紫色或红色的所有内容。你知道吗
您可以执行以下操作来识别不匹配项,然后找出如何修复它们。你知道吗
df.Color = df.Color.str.lower() colors = ['blue', 'red', 'purple', 'green'] misspellings = df.Color[~df.Color.isin(colors)].values print(misspellings) ['purpal']
从那里你可以单独修复每个条目或者写一些东西来智能地修复它们。这取决于你,但一旦你做了,你可以组正常。要修复“purpal”的条目,可以执行以下操作:
df.loc[df.Color == 'purpal', 'Color'] = 'purple'
你需要清理你的数据。显然,这对于数据所处的任何情况都是唯一的,但是如果您试图识别拼写错误的颜色名称,那么可能会过滤数据帧以显示不是蓝色、绿色、紫色或红色的所有内容。你知道吗
您可以执行以下操作来识别不匹配项,然后找出如何修复它们。你知道吗
从那里你可以单独修复每个条目或者写一些东西来智能地修复它们。这取决于你,但一旦你做了,你可以组正常。要修复“purpal”的条目,可以执行以下操作:
相关问题 更多 >
编程相关推荐