In [1]: from lxml import etree
我有一个HTML文档:
^{pr2}$正确分析其doctype:
In [3]: root.getroottree().docinfo.doctype
Out[3]: u'<!DOCTYPE html PUBLIC "-//IETF//DTD HTML//EN">'
但当连载的时候,我就失去了它:
In [4]: etree.tostring(root.getroottree(), method='html')
Out[4]: '<html></html>'
如何使doctype序列化?在
Debian GNU/Linux,Sid。Python 2.6.6。lxml 2.2.8-2。在
到目前为止,我能够让它正常工作的唯一方法是使用默认的XML解析器并向文档添加一个非空的系统URL:
使用
^{pr2}$HTMLParser
的相同操作会产生相同的docinfo,但不会得到所需的输出:Bug,如对另一个答案的注释所述:missing doctype when serialized。将于2015年2月在
lxml
的3.5版本中发布。在相关问题 更多 >
编程相关推荐