改进我的代码，在一个大列表python中对相同的单词进行分组，并与其他cod进行比较问题的回答

改进我的代码，在一个大列表python中对相同的单词进行分组，并与其他cod进行比较

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我一直在阅读一些其他的链接（<a href="https://stackoverflow.com/questions/6579263/what-is-a-good-strategy-to-group-similar-words">What is a good strategy to group similar words?</a>和<a href="https://stackoverflow.com/questions/11535483/fuzzy-group-by-grouping-similar-words">Fuzzy Group By, Grouping Similar Words</a>），它们与组相似的单词有关。我很好奇（1）是否有人能给我一些关于我在第二个链接中找到的一个算法如何工作的指导；（2）编程风格如何与我自己的“天真”方法相比较？在 如果你能回答1或2，我会投赞成票。在 （1）有人能帮我解释一下这里发生的事情吗？在 <pre><code>class Seeder: def __init__(self): self.seeds = set() self.cache = dict() def get_seed(self, word): LIMIT = 2 seed = self.cache.get(word,None) if seed is not None: return seed for seed in self.seeds: if self.distance(seed, word) <= LIMIT: self.cache[word] = seed return seed self.seeds.add(word) self.cache[word] = word return word def distance(self, s1, s2): l1 = len(s1) l2 = len(s2) matrix = [range(zz,zz + l1 + 1) for zz in xrange(l2 + 1)] for zz in xrange(0,l2): for sz in xrange(0,l1): if s1[sz] == s2[zz]: matrix[zz+1][sz+1] = min(matrix[zz+1][sz] + 1, matrix[zz][sz+1] + 1, matrix[zz][sz]) else: matrix[zz+1][sz+1] = min(matrix[zz+1][sz] + 1, matrix[zz][sz+1] + 1, matrix[zz][sz] + 1) return matrix[l2][l1] import itertools def group_similar(words): seeder = Seeder() words = sorted(words, key=seeder.get_seed) groups = itertools.groupby(words, key=seeder.get_seed) </code></pre> （二）在我的方法中，我有一个要分组的字符串列表，称为residentitylist，并使用默认字典。在 ^{pr2}$ 我的努力。我以uniqueResList为基础np.唯一（居民名单） <pre><code>d = collections.defaultdict(int) for i in residencyList: for x in uniqueResList: if x == i: if not d[x]: #print i, x d[x] = i #print d if d[x]: d[x] = d.get(x, ()) + ', ' + i else: #print 'no match' continue </code></pre>

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

改进我的代码，在一个大列表python中对相同的单词进行分组，并与其他cod进行比较

1 个回答

相关Python问题