python中的转义字符i问题的回答

python中的转义字符i

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我使用以下源文件打印我的测试XML文件，但它无法正确处理非ASCII字符： 在xmltest.py公司名称： <pre><code>import xml.sax.xmlreader import xml.sax.saxutils def testJunk(file, e2content): attr0 = xml.sax.xmlreader.AttributesImpl({}) x = xml.sax.saxutils.XMLGenerator(file) x.startDocument() x.startElement("document", attr0) x.startElement("element1", attr0) x.characters("bingo") x.endElement("element1") x.startElement("element2", attr0) x.characters(e2content) x.endElement("element2") x.endElement("document") x.endDocument() </code></pre> 如果我这么做 ^{pr2}$ 然后我得到一个xml文件，其中包含字符代码001。我想不出怎么摆脱这个角色。Firefox告诉我它不是格式良好的XML，并抱怨这个字符。我该怎么解决这个问题？在 澄清：我试图记录我无法控制的函数的输出，该函数输出非ASCII字符。在 <hr/> 更新：好的，所以现在我知道<a href="http://www.w3.org/TR/REC-xml/#charsets" rel="nofollow">characters outside one of the accepted ranges</a>不能以<code>&#x0001;</code>的形式进行编码。（或者更确切地说，它们可以被编码，但这无助于任何格式不好的w/r/t XML），但是如果我定义一种方法，它们可以被转义。在 （供将来参考：W3C在XML标准本身之外有<a href="http://www.w3.org/International/questions/qa-controls#further" rel="nofollow">a useful page</a>，它说“应该用适当的标记替换控制代码”，但实际上并没有给出任何这样做的例子。） 如果我想用以下方式转义接受范围之外的字符： 在转义之前：（<code>&#x0001;</code>表示一个字符，而不是8个字符的字符串） <pre><code> abcd&#x0001;efgh&#x0002;ijkl </code></pre> 逃逸后： <pre><code> abcd0001efgh0002ijkl </code></pre> 我怎么能用python做到这一点呢？在 <pre><code>def escapeXML(src) dest = ?????? return dest </code></pre>

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

这似乎对我有用。在 <pre><code>r = re.compile(ur'[^\x09\x0A\x0D\x20-\x7E\x85\xA0-\xFF' \ + ur'\u0100-\uD7FF\uE000-\uFDCF\uFDE0-\uFFFD]') def escapeInvalidXML(string): def replacer(m): return ""+('%04X' % ord(m.group(0)))+"" return re.sub(r,replacer,string) </code></pre> 示例： ^{pr2}$ 字符范围从<a href="http://www.w3.org/TR/2006/REC-xml-20060816/#charsets" rel="nofollow">http://www.w3.org/TR/2006/REC-xml-20060816/#charsets</a>，我没有逃过所有内容，只是下面的\uFFFF。在 <hr/> 更新：哎呀，忘了适应SAX的startElement/characters方法，正确处理多行代码： <pre><code>import re import xml.sax.xmlreader import xml.sax.saxutils r = re.compile(ur'(.*?)(?:([^\x09\x0A\x0D\x20-\x7E\x85\xA0-\xFF' \ + ur'\u0100-\uD7FF\uE000-\uFDCF\uFDE0-\uFFFD])|([\n])|$)') attr0 = xml.sax.xmlreader.AttributesImpl({}) def splitInvalidXML(string): list = [] def replacer(m): g1 = m.group(1) if (len(g1) > 0): list.append(g1) g2 = m.group(2) if (not g2 == None): list.append(ord(g2)) g3 = m.group(3) if (not g3 == None): list.append(g3) return "" re.sub(r,replacer,string) return list def submitCharacters(x, string): for fragment in splitInvalidXML(string): if (isinstance(fragment,int)): x.startElement("u", attr0) x.characters('%04X' % fragment) x.endElement("u") else: x.characters(fragment) def test1(fname): with open(fname,'w') as f: x = xml.sax.saxutils.XMLGenerator(f) x.startDocument() x.startElement('document',attr0) submitCharacters(x, 'this is a \x01 test\nof the \x02\x0b xml system.') x.endElement('document') x.endDocument() test1('test.xml') </code></pre> 这会产生： <pre><code><?xml version="1.0" encoding="iso-8859-1"?> <document>this is a 0001 test of the 0002000B xml system.</document> </code></pre>

python中的转义字符i

1 个回答

相关Python问题