更好的方法来做一个字母组

from collections import defaultdict def group_anagram(anagrams): result = defaultdict(list) for a in anagrams: result[''.join(sorted(list(a)))].append(a) return result if __name__ == "__main__": anagrams = ['rats', 'star', 'arts', 'cie', 'ice'] print group_anagram(anagrams)

2条回答

网友

1楼 · 编辑于 2024-09-29 21:49:35

你现在的方法可能是最好的。为了测试东西，我使用了你的方法，这个方法来自@bigballer的优秀答案，还有第三种方法，它使用一组计数作为键。为了对这些方法进行压力测试，我在大量（264097个单词）单词列表yawl上使用了它们，运行每个函数100次，并计算了每种方法的平均时间：

from collections import defaultdict
import timeit

def group_anagram1(anagrams):
    result = defaultdict(list)
    for a in anagrams:
        result[''.join(sorted(a))].append(a)
    return result.values()

primes = [2, 3, 5, 7, 11, 13, 17, 19, 23, 29, 31, 37, 41, 43, 47, 53, 59, 61, 67, 71, 73, 79, 83, 89, 97, 101]

def group_anagram2(anagrams):
    result = defaultdict(list)
    for a in anagrams:
        n = 1
        for c in a:
            n *= primes[ord(c) - ord('a')]
        result[n].append(a)
    return result.values()

def group_anagram3(anagrams):
    result = defaultdict(list)
    for a in anagrams:
        counts = [0]*26
        for c in a:
            counts[ord(c) - ord('a')] += 1
        result[tuple(counts)].append(a)
    return result.values()



with open("yawl.txt") as f:
    words = f.readlines()
    words =[w.strip() for w in words]

print timeit.timeit("group_anagram1(words)", setup="from __main__ import group_anagram1,words",number = 100)/100.0
print timeit.timeit("group_anagram2(words)", setup="from __main__ import group_anagram2,words",number = 100)/100.0
print timeit.timeit("group_anagram3(words)", setup="from __main__ import group_anagram3,words",number = 100)/100.0

输出（在我的机器YMMV上）：

^{pr2}$

实际上，考虑到yawl的大小，所有方法都非常快，每个方法处理超过25万个单词的时间不到一秒钟。然而，你最初的方法显然是赢家。此外，它不局限于拉丁语'a'到{}字母表。至于为什么它是最好的，密钥是由Python内置的（运行优化的C代码）直接构造的，但是其他方法使用解释的Python代码。它是很难击败内置的。在

编辑时：我使用这个素数列表重新实现了第二种方法，对更频繁的字母（在英语中）分配较小的素数：

primes = [5,71,37,29,2,53,59,19,11,83,79,31,43,13,7,67,97,23,17,3,41,73,47,89,61,101]

它可以节省几分之一秒的时间，但不足以使它比第一种方法快。在

进一步编辑时：

我重新运行上述代码，并对第二个方法进行了以下调整（如@bigballer所建议的）：

primes = [5,71,37,29,2,53,59,19,11,83,79,31,43,13,7,67,97,23,17,3,41,73,47,89,61,101]
primes = {c:p for c,p in zip('abcdefghijklmnopqrstuvwxyz',primes)}

def group_anagram2(anagrams):
    result = defaultdict(list)
    for a in anagrams:
        n = 1
        for c in a:
            n *= primes[c]
        result[n].append(a)
    return result.values()

在这个版本中，前两种方法变成了虚拟的平局，在我有限的测试中，基于prime的方法稍微快一点（快了大约8%）。尽管如此，我仍然认为第一种方法更可取，因为它不依赖于固定的字母表。在

网友

2楼 · 编辑于 2024-09-29 21:49:35

素数因式分解是唯一的，乘法的顺序并不重要。在

您可以分配a = 2, b = 3, c = 5, d = 7等

那么dab=7*2*3=42=3*2*7=bad，那么你的哈希值就是42。在

另一个选择是hash(frozenset(collections.Counter(word).items()))的有效实现

编辑：最快的可能是使用26位。对于单词中的每个字符，翻转对应的位。您可能会遇到一些冲突，在这种情况下，可以在查找时删除重复数据

相关问题更多 >

编程相关推荐

热门问题

热门文章