使用regex清理数据帧列值

2024-10-04 11:34:57 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在查看一个数据集,其中有“City”列,其中的值的格式为,例如,实体[“City”、{“heilboy”、“安徽”、“中国”}]。我想清理一下这个专栏,这样就只剩下城市的名字了。在上面的例子中,我希望除去合肥以外的所有东西。我正在尝试将rstrip和lstrip与regex一起使用。尽管基于在线regex调试器网站,我的regex似乎是正确的,但代码不起作用。 以下是我使用的代码:

df['City'] = df['City'].map(lambda x: x.lstrip(r'(Entity["City", {")').rstrip(r'(",\s"\w+"}])'))

我希望结果是公正的。但我得到的结果是:

Hefei", "Anhui", "China

lstrip似乎正在工作,但rstrip只删除“}],而不删除我需要删除的其余字符

我希望有人能告诉我哪里出了错,或者告诉我一个更好的方法来完成这件事


Tags: 数据代码实体citydf格式名字调试器