如何构建html5lib解析器来处理xml和html标记的混合

2024-09-30 05:22:50 发布

您现在位置:Python中文网/ 问答频道 /正文

我是beauthulsoup的新手,我正在学习如何用它来解决我的解析任务。 我的html文件包含许多从lexisnexis(法律数据库)批量下载的单个文档。我的第一个任务是分割html文档。我认为这很容易,因为文档被<DOC NUMBER=1>body of the 1st document</DOC>等包围。但是,这个<DOC>标记是xml标记,而不是html标记(文件中的所有其他标记都是html)。因此,对于常规的html解析器,这个标记在树中不可用。如何在bs4中构建一个解析器来获取这个xml标记? 我附上html文件的相关部分:

<!-- Hide XML section from browser <DOC NUMBER=1> <DOCFULL> --> BODY <!-- Hide XML section from browser </DOCFULL> </DOC> -->

最佳 马里恩


Tags: 文件from文档标记browser解析器numberdoc
1条回答
网友
1楼 · 发布于 2024-09-30 05:22:50

在实例化BeautifulGroup对象时,可以在bs4中指定xml:

xml_soup = BeautifulSoup(xml_object, 'xml')

这应该能解决你的问题。您可以使用xml_soup对象来解析剩余的html,但是我建议您为html实例化另一个soup对象:

^{pr2}$

相关问题 更多 >

    热门问题