我的输入将是没有固定HTML结构的任何web文档。 我想做的是提取标题中的文本(可能是嵌套的)及其后面的段落标记(可能是多个),并将它们成对输出。你知道吗
一个简单的HTML示例可以是:
<h1>House rule</h1>
<h2>Rule 1</h2>
<p>A</p>
<p>B</p>
<h2>Rule 2</h2>
<h3>Rule 2.1</h3>
<p>C</p>
<h3>Rule 2.2</h3>
<p>D</p>
对于本例,我希望有一个成对的输出:
Rule 2.2, D
Rule 2.1, C
Rule 2, D
Rule 2, C
House rule, D
House rule, C
Rule 1, A B
……等等。你知道吗
我是Python的初学者,我知道web scraping是由Scrapy和BeautifulSoup广泛完成的,在这种情况下,可能需要使用XPath或代码来识别同级标记。至于如何提取标题及其以下段落的输出对,显然是基于标签的相对顺序。 我不确定在这种情况下使用哪个库会更好,如果您能告诉我如何实现它,那将非常有帮助。谢谢!你知道吗
遍历树并收集所有
<p>
标记(这些标记的级别越来越高)<h>
可以使用BeautifulSoup完成:。。。你知道吗
相关问题 更多 >
编程相关推荐