我有两个DataFrame
对象,每个对象包含2列字符串数据。我需要将列a
和b
与c
和{DataFrame
对象。在
DF1 DF2
a b c d
apple paster doser ankle
bac bur are bun
sit sign and lake
car bun ape mason
alli makeup noodle paster
显然,这些比率是由完美匹配1构成的。在
我可以遍历每个DataFrame
对象的每一行,并应用difflib.SequenceMatcher
函数返回比率,然后使用max ratio和相应的数据来设置该行上的值,但是考虑到数据有多大,这将需要很长时间。我很好奇我是否可以使用apply
在两个DataFrame
对象上应用这个函数
(在原始的}配对,}配对,所以首先,让我们将数据帧连接在一起。在
df2
和示例输出之间,您的一些输出是否发生了变化?我假设示例输出具有正确的df2
),看起来您是将a
与{b
与{我们必须做一个
^{pr2}$apply
,它包含两列。我们应该创建一个可以接受两个列名作为参数的函数。在我得去看看
SequenceMatcher
是怎么工作的。需要注意的一点是,它可以接受数组,因此您必须小心:您对string序列匹配、元素到元素特别感兴趣,这就是为什么您需要apply
并且不能直接插入列。在现在您可以将此},以及{}和{}。在
sim_metric
应用于a
和{注意我是如何使用
apply
的args
参数来指定泛型sim_metric
的列名。在最后,我们可以对最后的
comparison_ratio
列执行max
。在结果如下。在
相关问题 更多 >
编程相关推荐