在具有匹配字符串值及其计数的列表中查找模糊匹配字符串

string Matching strings count =============================== Vikash vikas,vikahs 2 vikas vikash,vikahs 2 vinod vinodh 1 Vikky 0 Akash Akash 1 ... .. Vikahs vikash,vikas 2

1条回答

网友

1楼 · 发布于 2024-09-28 23:31:28

这可以通过以下方式使用fuzzyfuzzy实现：

import pandas as pd
from fuzzywuzzy import fuzz

elements = ['vikash', 'vikas', 'Vinod', 'Vikky', 'Akash', 'Vinodh', 'Sachin', 'Salman', 'Ajay', 'Suchin', 'Akash', 'vikahs']

results = [[name, [], 0] for name in elements]

for (i, element) in enumerate(elements):
    for (j, choice) in enumerate(elements[i+1:]):
        if fuzz.ratio(element, choice) >= 90:
            results[i][2] += 1
            results[i][1].append(choice)
            results[j+i+1][2] += 1
            results[j+i+1][1].append(element)

data = pd.DataFrame(results, columns=['name', 'duplicates', 'duplicate_count'])

作为替代方案，我编写了库^{}，它在返回与fuzzyfuzzy相同的结果时速度更快，并且可以通过以下方式实现：

import pandas as pd
from rapidfuzz import fuzz

elements = ['vikash', 'vikas', 'Vinod', 'Vikky', 'Akash', 'Vinodh', 'Sachin', 'Salman', 'Ajay', 'Suchin', 'Akash', 'vikahs']

results = [[name, [], 0] for name in elements]

for (i, element) in enumerate(elements):
    for (j, choice) in enumerate(elements[i+1:]):
        if fuzz.ratio(element, choice, score_cutoff=90):
            results[i][2] += 1
            results[i][1].append(choice)
            results[j+i+1][2] += 1
            results[j+i+1][1].append(element)

data = pd.DataFrame(results, columns=['name', 'duplicates', 'duplicate_count'])

我确实运行了一个快速基准测试，以显示每1000次运行中两次之间的运行时差异：

# FuzzyWuzzy
0.13835792080499232

# RapidFuzz
0.03843669104389846

两者的输出为：

      name        duplicates  duplicate_count
0   vikash           [vikas]                1
1    vikas  [vikash, vikahs]                2
2    Vinod          [Vinodh]                1
3    Vikky                []                0
4    Akash           [Akash]                1
5   Vinodh           [Vinod]                1
6   Sachin                []                0
7   Salman                []                0
8     Ajay                []                0
9   Suchin                []                0
10   Akash           [Akash]                1
11  vikahs           [vikas]                1

相关问题更多 >

编程相关推荐

热门问题

热门文章

在具有匹配字符串值及其计数的列表中查找模糊匹配字符串

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >