使difflib的SequenceMatcher忽略“垃圾”字符

2条回答

网友

1楼 · 编辑于 2024-10-01 17:40:48

如果您希望按照我在评论中建议的那样做（删除垃圾字符），最快的方法是使用^{}。在

例如：

to_compare = to_compare.translate(None, {"-"})

如here所示，这明显比正则表达式快（3倍）（我觉得读起来更好）。在

请注意，在python3.x下，或者如果您在python2.x下使用Unicode，这将不起作用，因为不接受delchars参数。在这种情况下，您只需映射到None。E、 g组：

^{pr2}$

你也可以用一个小函数来保存一些输入，如果你想删除很多字符，只需设置一个集合并通过：

def to_translation_map(iterable):
    return {key: None for key in iterable}
    #return dict((key, None) for key in iterable) #For old versions of Python without dict comps.

网友

2楼 · 编辑于 2024-10-01 17:40:48

如果您要创建一个函数来删除所有垃圾字符，则可以使用re：

string=re.sub('-|_|\*','',string)

对于正则表达式'-|_|\*'只需在所有垃圾字符之间加一个|，如果它是一个特殊的re字符，则在它前面加一个\（如*和{}）

相关问题更多 >

编程相关推荐

热门问题

热门文章

使difflib的SequenceMatcher忽略“垃圾”字符

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >