如何清理字符串，使其仅包含可打印的ASCII字符？问题的回答

如何清理字符串，使其仅包含可打印的ASCII字符？

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

您可以对字符进行迭代，获取代码点，并检查允许的值： <pre><code>def sanitize(unsafe_str): allowed_range = set(range(32, 127)) safe_str = '' for char in unsafe_str: cp = ord(char) if cp in allowed_range: safe_str += char elif cp == 9: safe_str += ' ' * 4 return re.sub(r'\s+', ' ', safe_str) </code></pre> 示例： <pre><code>In [1042]: unsafe_string = "\u2502\u251cAPPLES\n\t\t\t\t\t\r\r AND \n\nBANANAS" In [1043]: def sanitize(unsafe_str): ...: allowed_range = set(range(32, 127)) ...: safe_str = '' ...: for char in unsafe_str: ...: cp = ord(char) ...: if cp in allowed_range: ...: safe_str += char ...: elif cp == 9: ...: safe_str += ' ' * 4 ...: return re.sub(r'\s+', ' ', safe_str) ...: ...: In [1044]: sanitize(unsafe_string) Out[1044]: 'APPLES AND BANANAS' </code></pre> 最后一个<code>re.sub(r'\s+', ' ', safe_str)</code>块是将空白压缩为1。如果您不想这样做，只需执行<code>return safe_str</code>： <pre><code>In [1046]: def sanitize(unsafe_str): ...: allowed_range = set(range(32, 127)) ...: safe_str = '' ...: for char in unsafe_str: ...: cp = ord(char) ...: if cp in allowed_range: ...: safe_str += char ...: elif cp == 9: ...: safe_str += ' ' * 4 ...: return safe_str ...: In [1047]: sanitize(unsafe_string) Out[1047]: 'APPLES AND BANANAS' </code></pre> <hr/> FWIW，这会在每次运行函数时生成允许的列表，但由于它是一个常量，您可以将它放在模块级别，以便只生成一次，例如： <pre><code>ALLOWED_RANGE = set(range(32, 127)) </code></pre>

如何清理字符串，使其仅包含可打印的ASCII字符？

1 个回答

相关Python问题