如何提高数据帧内字符串相似度计算的速度？

2024-10-02 20:37:26 发布

男 | 程序猿一只，喜欢编程写python代码。

我有如下数据帧：

df = pd.DataFrame(data=[[1, 'Berlin',], [2, 'Paris', ],
                    [3, 'Lausanne', ], [4, 'Bayswater',],
                    [5, 'Table Bay', ], [6, 'Bejing',],
                    [7, 'Bombay',], [8, 'About the IIS']],
                    columns=['id', 'text'],)

我想用库水母中的jaroèu winkler计算每个字符串的相似性分数，并与所有其他字符串进行比较，得出最相似的一个或得到如下相似性分数矩阵：

      str1 str2 str3
str1    1   0.6  0.7
str2    0.6  1   0.3
str3    0.7  0.3  1

我怎样才能以最快的速度得到这个结果。现在我只使用循环来比较每一个，并将结果存储在列表中

 def sim_cal(string1, string2):
     similar = jellyfish.jaro_winkler(string1, string2)
     return similar

但是如果数据变大了速度会很慢，那么如果有什么办法可以加快呢

谢谢

Tags：数据字符串 df 相似性速度分数 pd similar

1条回答

网友

1楼 · 发布于 2024-10-02 20:37:26

用Gensim你可以做this这样的事情

我使用GloVe作为这个定时示例：

不会撒谎的，这很有趣

如何提高数据帧内字符串相似度计算的速度？

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何提高数据帧内字符串相似度计算的速度？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >