如何构建html5lib解析器来处理xml和html标记的混合

2024-09-30 05:22:50 发布

男 | 程序猿一只，喜欢编程写python代码。

我是beauthulsoup的新手，我正在学习如何用它来解决我的解析任务。我的html文件包含许多从lexisnexis（法律数据库）批量下载的单个文档。我的第一个任务是分割html文档。我认为这很容易，因为文档被<DOC NUMBER=1>body of the 1st document</DOC>等包围。但是，这个<DOC>标记是xml标记，而不是html标记（文件中的所有其他标记都是html）。因此，对于常规的html解析器，这个标记在树中不可用。如何在bs4中构建一个解析器来获取这个xml标记？我附上html文件的相关部分：

 BODY 

最佳马里恩

Tags：文件 from 文档标记 browser 解析器 number doc

1条回答

网友

1楼 · 发布于 2024-09-30 05:22:50

在实例化BeautifulGroup对象时，可以在bs4中指定xml：

xml_soup = BeautifulSoup(xml_object, 'xml')

这应该能解决你的问题。您可以使用xml_soup对象来解析剩余的html，但是我建议您为html实例化另一个soup对象：

^{pr2}$

如何构建html5lib解析器来处理xml和html标记的混合

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何构建html5lib解析器来处理xml和html标记的混合

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >