Pandas在同一列中用模糊匹配替换字符串

d = pd.DataFrame({'OWNER' : pd.Series(['OTTO J MAYER', 'OTTO MAYER','DANIEL J ROSEN','DANIEL ROSSY', 'LISA CULLI', 'LISA CULLY'])}) names = d['OWNER'] names = names.values names import difflib def best_match(tokens, names): for i,t in enumerate(tokens): closest = difflib.get_close_matches(t, names, n=1) if len(closest) > 0: return i, closest[0] return None def fuzzy_replace(x, y): names = y # just a simple replacement list tokens = x.split() res = best_match(tokens, y) if res is not None: pos, replacement = res return u" ".join(tokens) return x d["OWNER"].apply(lambda x: fuzzy_replace(x, names))

1条回答

网友

1楼 · 发布于 2024-06-28 21:00:55

实际上^{}适合于该任务，但是将名称拆分为标记没有好处。为了区分指定的名称，我们必须将截止值分数提高到0.8左右，并确保返回所有可能的名称，将最大值提高到len(names)。然后我们有两个案例来决定选择哪个名称：

如果一个名字比其他名字出现的次数多，选择那个名字
否则，选择首先出现的一个

def fuzzy_replace(x, names):
    aliases = difflib.get_close_matches(x, names, len(names), .8)
    closest = pd.Series(aliases).mode()
    closest = aliases[0] if closest.empty else closest[0]
    d['OWNER'].replace(aliases, closest, True)

for x in d["OWNER"]: fuzzy_replace(x, d['OWNER'])

相关问题更多 >

编程相关推荐

热门问题

热门文章