lxml:修改的转义方案

2024-09-29 19:08:45 发布

您现在位置:Python中文网/ 问答频道 /正文

对于我们的应用程序,我们希望引用引号(单引号和双引号),但不需要引用害羞的字符。你知道吗

为了使这一点更具体,以下代码:

from lxml.html import fromstring, tostring
parsed = fromstring(u'<div>That fire&shy;fighter is 6&#39;11&#34; tall!</div>')
print repr(tostring(parsed, encoding=unicode))

。。。具有以下输出:

u'<div>That fire\xadfighter is 6\'11" tall!</div>'

。。。但我想要这个输出:

u'<div>That fire\xadfighter is 6&#39;11&#34; tall!</div>'

本质上,我想覆盖默认的编码/转义行为。你知道吗


据我所知,libxml2不支持这一点。目前,我也会接受一种完全可靠(希望是快速的)后处理方法。你知道吗


Tags: 代码div应用程序thatis字符parsedfire

热门问题