我有一个来自Parlament之家的网页。它有关于MP申报利益的信息,我想为我正在考虑的项目存储所有MP利益。你知道吗
root = 'https://publications.parliament.uk/pa/cm/cmregmem/160606/abbott_diane.htm'
根是一个例子网页。我希望我的输出是一本字典,因为有兴趣在不同的副标题和条目可以是一个列表。你知道吗
问题:如果你看这个页面,第一个兴趣点(就业和收入)不是包装在一个容器中,而是标题是一个
标记,没有连接到它下面的文本,所以我可以调用soup.find_all('p', {xlms='<p, {'xmlns':'http://www.w3.org/1999/xhtml')
但它会返回费用的标题,以及其他一些标题,比如她的名字,而不是它下面的文本。
这使得遍历标题和存储信息变得困难
遍历页面、存储每个标题以及每个标题下的信息的最佳方式是什么?你知道吗
像这样的方法可能有用:
输出
相关问题 更多 >
编程相关推荐