我有以下数据框架:
列1包含名称
第2列包含删除最常出现的单词后的名称(阈值>=(四)
df1型:
name stripped_name
davids garden davids garden
xerox center xerox
auto gas auto
auto c gas auto c
petroleum gas petroleum
petrol gas petrol
gas engine engine
money center money
cyber cafe center cyber
cyber cafe cyber
bahaar cafe bahaar
coaching center coaching
cool cafe cool
bahar cafe bahar
假设我将剥离名称传递给一个模糊匹配的函数并返回以下结果
df2型:
p s0
auto c auto
bahaar bahar
petroleum petrol
cyber cyber
如果我要把df2.p,df2.s0的名字映射回df1的name列, 将有一个值网络属于两个名称(网吧和网吧中心)
我如何绘制这张地图?? 我能得到关于添加任何中间层来克服abmiguity的建议吗
预期结果如下:
p p1 s0 s
auto c auto c gas auto auto gas
bahaar bahaar cafe bahar bahar cafe
petroleum petroleum gas petrol petrol gas
cyber cyber cafe center cyber cyber cafe
我们假设df1中的
stripped_name
列是唯一的。否则,df2无法判断要转换回哪个见^{}
相关问题 更多 >
编程相关推荐