如何在我的300MB XML文件中找到字符\u1ec1?

2024-09-29 23:21:16 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个复杂的过程,可以归结为:我需要找到破坏XSL转换的一个字符在哪里。因为我使用的是这个系统,所以我只能从XSLT中得到“它不起作用”的信息

我碰巧知道它挂在了角色\u1ec1上。逐行读取XML,如何确定该字符是否在行中,从而清除/纠正/忽略有问题的记录?你知道吗

我目前最强大的工具是Python,所以我将重点介绍它。你知道吗

我试过:

buffer = []
for line in lines:
    for letter in line:
    if (u'\u1ec1') in line:
        buffer.append(line)

然后写出缓冲区,它应该显示每一个事件,至少让我更接近。它无法对字符进行编码。。。嗯。你知道吗

我试过:

buffer = []
previous_line = "<start>"
with open(file, 'r') as lines:
    for line in lines:
        for letter in str(line):
            if ord(letter) > 127:
                buffer.append(previous_line)
        previous_line = line

然后我就可以写出前面的行,而不必担心编码错误等等。到目前为止,我要么没有得到任何结果,要么是编码错误。你知道吗

这是一个相对无关紧要的牦牛,我需要剃在路上解决一个更重要的问题。也就是说,总的解决方案是可以接受的,只要它能帮助我找到破坏XSLT的那条线。(我不能访问任何xslide,除非可以将Notepad++称为xslide)。你知道吗


Tags: in编码forifbuffer错误line字符

热门问题