如何在python中优化字符串替换？

import re def standard_for_loop(string, replacements): # case sensitive for loop for key, value in replacements.items(): # would not work unless case specific string = string.replace(key, value) return string def regex_loop(string, replacements): #case insensitive regex substitution in for for key, value in replacements.items(): string = re.sub(key, value, string, re.IGNORECASE) return string def regex_multiple(string, replacements): # case insensitive regex substitution using lambda pattern = re.compile("({})".format("|".join(replacements.keys())), re.IGNORECASE) return pattern.sub(lambda m: replacements[m.string.lower()[m.start():m.end()]], string) def case_insensitive_for_loop(string, replacements): def find_next(string, pattern, sub): if pattern.lower() in string.lower(): match = string.lower().index(pattern.lower()) end = int(match + len(pattern)) new_string = string[end:] # yield a replaced substring of original string yield string[:match] + sub yield from find_next(new_string, pattern, sub) ''' # this is what I'm unsure about. How to negate need for # for loop here and how to fix the append issue. # Currently the functionality works but it appends output # replacement to the result. I know the "+=" is the # cause of the problem, but I'm not sure how to fix this. ''' result = '' for k, v in replacements.items(): for output in find_next(string, k, v): result += output return result

# for a sample document doc = """Lorem ipsum dolor sit amet, consectetur adipiscing elit. Phasellus accumsan pulvinar massa ut pulvinar. Cras blandit quam non dictum tempus. Maecenas id posuere nibh. Nullam sit amet pharetra neque. Etiam nec imperdiet tellus. Nulla facilisi. Proin sit amet massa aliquam, pulvinar justo in, suscipit purus. Fusce in tempus orci. In consectetur, ipsum nec volutpat dapibus, felis magna scelerisque enim, et rutrum nunc ligula eget augue. Phasellus aliquam feugiat venenatis. Sed lobortis pharetra ipsum ut venenatis. Nullam ut accumsan orci. Vivamus faucibus augue in facilisis facilisis. Donec ut scelerisque ipsum. Ut mollis elit nibh, ut vulputate eros ultrices ac. Nunc ac urna sed libero imperdiet maximus non sed dui. Morbi ornare eu eros eget pharetra. Vivamus vestibulum nisi eu eros pulvinar aliquet. Maecenas at justo bibendum, viverra urna nec, pellentesque orci. Cras ut molestie sem. Proin in tincidunt ex. Aliquam euismod id ligula a bibendum. Morbi at diam euismod, auctor ex non, venenatis ante. Proin convallis ex eu semper posuere. Etiam sed tincidunt massa. Vivamus aliquam mollis massa, nec lacinia est dictum vitae. In varius convallis pulvinar. Pellentesque aliquet pulvinar nibh vel dictum""" #replacement strings where k is the substring to be searched and v is the value to be replaced with repl = { 'venenatis ante':'', 'ipsum nec volutpat dapibus' : '', 'ipsum vulputate accumsan' : '', 'dolor sit amet':'', 'vivamus aliquam mollis massa':'' }

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Phasellus accumsan pulvinar massa ut pulvinar. Cras blandit quam non dictum tempus. Maecenas id posuere nibh. Nullam sit amet pharetra neque. Etiam nec imperdiet tellus. Nulla facilisi. Proin sit amet massa aliquam, pulvinar justo in, suscipit purus. Fusce in tempus orci. In consectetur, ipsum nec volutpat dapibus, felis magna scelerisque enim, et rutrum nunc ligula eget augue. Phasellus aliquam feugiat venenatis. Sed lobortis pharetra ipsum ut venenatis. Nullam ut accumsan orci. Vivamus faucibus augue in facilisis facilisis. Donec ut scelerisque ipsum. Ut mollis elit nibh, ut vulputate eros ultrices ac. Nunc ac urna sed libero imperdiet maximus non sed dui. Morbi ornare eu eros eget pharetra. Vivamus vestibulum nisi eu eros pulvinar aliquet. Maecenas at justo bibendum, viverra urna nec, pellentesque orci. Cras ut molestie sem. Proin in tincidunt ex. Aliquam euismod id ligula a bibendum. Morbi at diam euismod, auctor ex non, Lorem ipsum dolor sit amet, consectetur adipiscing elit. Phasellus accumsan pulvinar massa ut pulvinar. Cras blandit quam non dictum tempus. Maecenas id posuere nibh. Nullam sit amet pharetra neque. Etiam nec imperdiet tellus. Nulla facilisi. Proin sit amet massa aliquam, pulvinar justo in, suscipit purus. Fusce in tempus orci. In consectetur, Lorem ipsum Lorem ipsum dolor sit amet, consectetur adipiscing elit. Phasellus accumsan pulvinar massa ut pulvinar. Cras blandit quam non dictum tempus. Maecenas id posuere nibh. Nullam sit amet pharetra neque. Etiam nec imperdiet tellus. Nulla facilisi. Proin sit amet massa aliquam, pulvinar justo in, suscipit purus. Fusce in tempus orci. In consectetur, ipsum nec volutpat dapibus, felis magna scelerisque enim, et rutrum nunc ligula eget augue. Phasellus aliquam feugiat venenatis. Sed lobortis pharetra ipsum ut venenatis. Nullam ut accumsan orci. Vivamus faucibus augue in facilisis facilisis. Donec ut scelerisque ipsum. Ut mollis elit nibh, ut vulputate eros ultrices ac. Nunc ac urna sed libero imperdiet maximus non sed dui. Morbi ornare eu eros eget pharetra. Vivamus vestibulum nisi eu eros pulvinar aliquet. Maecenas at justo bibendum, viverra urna nec, pellentesque orci. Cras ut molestie sem. Proin in tincidunt ex. Aliquam euismod id ligula a bibendum. Morbi at diam euismod, auctor ex non, venenatis ante. Proin convallis ex eu semper posuere. Etiam sed tincidunt massa.

1条回答

网友

1楼 · 发布于 2024-06-28 10:33:42

regex_multiple效率低下，因为每次有匹配项时，if都会重新计算整个字符串。您只需降低匹配的字符串。以下是如何：

def regex_multiple(string, replacements):
    # case insensitive regex substitution using lambda 
    pattern = re.compile("({})".format("|".join(replacements.keys())), re.IGNORECASE)
    return pattern.sub(lambda m: replacements[m[0].lower()], string)

与其他不区分大小写的实现相比，此解决方案应该更快，并且在大型文档上比原始解决方案快得多

但是请注意，您正在比较区分大小写和不区分大小写的方法。使用不区分大小写的替换在计算上要密集得多，因此速度较慢。公平地说，你应该比较做同样事情的方法

最后，如果您仅处理ASCII文档。您可以将标志re.ASCII添加到regexp。这使得解析速度加快了一点

相关问题更多 >

编程相关推荐

热门问题

热门文章