删除文件tex中的非ASCII字符

def removeNonAscii(s): return "".join(filter(lambda x: ord(x)<128, s)) sentence = "this time air\u00e6\u00e3o was filled\u00e3o" sentence = removeNonAscii(sentence) print(sentence)

1条回答

网友

1楼 · 发布于 2024-09-30 16:38:48

我觉得文件中的文本不是实际的non-ascii字符，而是实际显示字符的utf-8序列，也就是说，它实际上是代码\u00 ，因此当你运行代码时，它读取每一个字符，并看到它们是完全正确的，所以过滤器会离开它们。在

如果是这种情况，请使用以下方法：

import re
def removeNonAscii(s):
    return re.sub(r'\\u\w{4}','',s)

它将删除'\u'的所有实例

示例：

^{pr2}$

在哪里文件.txt有：

^{bq}$

编程相关推荐

java Google GSON：如何使用@Since注释，例如版本“1.2.1”？（无效双精度）
java EL1021E:尝试访问属性时出现问题
Java传递值交换方法
java在Spring MVC webapp中添加系统属性
java如何在焦点改变时替换经理的字段
文件io有没有一种方法可以使用Java PrintWriter写入特定行？
linux如何使用java卷曲URL并将输出保存到文件
java反向工程生成==，而不是等于
只有当
java为什么这个代码抛出异常比较方法违反了它的一般约定

相关问题更多 >

编程相关推荐

热门问题

热门文章

删除文件tex中的非ASCII字符

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >