我是beauthulsoup的新手,我正在学习如何用它来解决我的解析任务。
我的html文件包含许多从lexisnexis(法律数据库)批量下载的单个文档。我的第一个任务是分割html文档。我认为这很容易,因为文档被<DOC NUMBER=1>body of the 1st document</DOC>
等包围。但是,这个<DOC>
标记是xml标记,而不是html标记(文件中的所有其他标记都是html)。因此,对于常规的html解析器,这个标记在树中不可用。如何在bs4中构建一个解析器来获取这个xml标记?
我附上html文件的相关部分:
<!-- Hide XML section from browser <DOC NUMBER=1> <DOCFULL> --> BODY <!-- Hide XML section from browser </DOCFULL> </DOC> -->
最佳 马里恩
在实例化BeautifulGroup对象时,可以在bs4中指定xml:
这应该能解决你的问题。您可以使用
^{pr2}$xml_soup
对象来解析剩余的html,但是我建议您为html实例化另一个soup对象:相关问题 更多 >
编程相关推荐