从字典中找到句子的变音词的有效方法？

def sortstring(string): return ''.join(sorted(string)) def simplify(all_strings): possible_strings = defaultdict(list) for string in all_strings: possible_strings[sortstring(string).strip()].append(string) return possible_strings def generate(database, length,curstring="", curdata=set()): if len(curstring.replace(" ", "")) > length: return set() if len((curstring).replace(" ", "")) == length: return curdata.union(set([curstring])) for i in database: if len((curstring+i).replace(" ", "")) <= length: curdata = curdata.union(generate(database.difference(set([i])), length, curstring+" "+i, curdata)) database = database.difference(set([i])) return curdata def analyse(database, input_string): cletters = countstring(input_string) strings = simplify(generate(database, cletters)) data = list() sorted_string = sortstring(input_string).strip() if sorted_string in strings.keys(): data = strings[sorted_string] return len(strings.values()), data def countstring(string): a = countletters(string) return sum(a.values()) def countletters(string): result = {} for i in ascii_lowercase: result[i] = string.count(i) return result

2条回答

网友

1楼 · 编辑于 2024-10-02 00:26:33

下面是一个递归方法，实现了我在评论中建议的树方法：

def frequencyDict(s):
    s = s.lower()
    d = {}
    for c in s:
        if c.isalpha():
            if c in d:
                d[c] += 1
            else:
                d[c] = 1
    return d

def canMake(w,fdict):
    d = frequencyDict(w)
    return all(d[c] <= fdict.get(c,0) for c in d)

def candidates(wlist,fdict):
    return [w for w in wlist if canMake(w,fdict)]

def anagrams(wlist,fdict):
    if len(wlist) == 0 or len(fdict) == 0:
        return "no anagrams"
    hits = []
    firstWords = candidates(wlist,fdict)
    if len(firstWords) == 0:
        return "no anagrams"
    for w in firstWords:
        #create reduced frequency dict
        d = fdict.copy() 
        for c in w:
            d[c] -= 1
            if d[c] == 0: del d[c]
        #if d is empty, the first word is also a the last word
        if len(d) == 0:
            hits.append(w)
        else:
            #create reduced word list
            rlist = [v for v in wlist if canMake(v,d)]
            tails = anagrams(rlist, d)
            if tails != "no anagrams":
                hits.extend(w + " " + t for t in tails)
    if len(hits) == 0:
        return "no anagrams"
    else:
        return hits

def findAnagrams(wlist,s):
    return anagrams(wlist,frequencyDict(s.lower()))

f = open("linuxwords.txt")
words = f.read().split('\n')
f.close()
words = [w.strip().lower() for w in words if not '-' in w]
test = findAnagrams(words, "Donald Trump")

从一个旧的Linux单词列表中找到所有730个“唐纳德·特朗普”的字谜大约需要20秒。我最喜欢的是“潮湿的坚果主”

网友

2楼 · 编辑于 2024-10-02 00:26:33

我自己解决了一部分问题。已解决生成器代码中的for-if反模式：

def generate(database, length,letters,curstring="",curdata=set()):
if len(curstring.replace(" ",""))>length:
    return set()
if len((curstring).replace(" ",""))==length:
    return curdata.union(set([curstring]))
t=countletters(curstring)
for i in ascii_lowercase:
    if t[i]>letters[i]:
        return set()
for i in database:
    t=countletters(curstring+i)
    test=0
    for j in ascii_lowercase:
        if t[j]>letters[j]:
            test=1
    if test: continue
    if sum(t.values())<=length:
        curdata=curdata.union(generate(database.difference(set([i])),length,letters,curstring+" "+i,curdata))
        database=database.difference(set([i]))
return curdata

它现在快得多，但是如果字典包含数万个单词和/或输入字符串很长，则仍然很慢。在

相关问题更多 >

编程相关推荐

热门问题

热门文章