我有以下的问题:我创建了一本词典(德语),里面有单词和它们对应的引理。示例: “Lagerbestände”,“Lager bestand”,“Wohnhäuser”,“Wohn haus”,“Bahnhof”,“Bahn hof”
我现在有一个文本,我想检查所有的单词他们的引理。它可能会出现一个词,而这个词不在词典中,比如“Restbestände”。但是“最好的”引理,我们已经知道了。所以我想把单词的第一部分,在dicti中是未知的,把它加到柠檬化的第二部分,然后打印出来(或者返回它)。 示例:“Restbestände”->;“Rest bestand”。(“bestand”取自“Lagerbestände”引理)
我编写了以下代码:
for limit in range(1, len(Word)):
for k, v in dicti.iteritems():
if re.search('[\w]*'+Word[limit:], k, re.IGNORECASE) != None:
if '-' in v:
tmp = v.find('-')
end = v[tmp:]
end = re.sub(ur'[-]',"", end)
Word = Word[:limit] + '-' + end `
但我有两个问题:
但是,你会怎么解决这个问题呢?在
在中必须在脚本中的任何地方使用
UNICODE
。Everywhere, everywhere, everywhere.另外,python RegEx函数接受应该始终设置的标志^{} 。德语字母不在ASCII集中,因此RegEx有时可能会混淆,例如在匹配
r'\w'
相关问题 更多 >
编程相关推荐