fuzzy一个fuzzy表的返回

collected_urls = [] for offender in repeat_offenders[:10]: best_match = process.extract(offender, ids) collection = [] for match in best_match: if match[1] > 95: collection.append(match[0]) else: pass collected_urls.append(collection)

idz = ids collected_ids = [] for i in range(len(idz)): tmp = [i] for j in range(len(ids)): if idz[i] == idz[j] and i != j: tmp.append(j) del j if len(tmp) > 1: collected_ids.append(tmp) del i

1条回答

网友

1楼 · 发布于 2024-10-03 02:43:15

如果不必使用fuzzywuzzy，则可以使用两个for-loops检查重复项并生成{}，如下所示：

collected_ids = []
for i in xrange(len(ids)):
    tmp = [i]
    for j in xrange(len(ids)):
        if ids[i] == ids[j] and i != j:
            tmp.append(j)
    if len(tmp) > 1:
        collected_ids.append(tmp)
collected_ids = list(set(collected_ids))

编辑：

如果要避免重复，可以创建一个列表来检查索引是否已添加，如下所示：

^{pr2}$

输出：

[[0, 2, 5], [3, 9], [6, 7]]

相关问题更多 >

编程相关推荐

热门问题

热门文章