用“无意义”标签抓取网页

2024-09-28 03:17:45 发布

您现在位置:Python中文网/ 问答频道 /正文

我正试图建立一个网络刮板来收集州一级的众议院和参议院法案的信息。我使用Python,我可以从页面中提取HTML,但是解析它给我带来了困难。例如,新罕布什尔州法案页面将信息包装在带有“无意义”命名标签的标签中。下面是一个示例页面:http://www.gencourt.state.nh.us/bill_status/billText.aspx?sy=2017&id=14&txtFormat=html。例如,我如何从长长的标签列表中提取账单的编号


Tags: 刮板网络信息http示例htmlwww页面
2条回答

在浏览器中打开页面,右键单击希望能够拉取的内容,然后使用检查,查看用于该元素的类名。例如,如果你检查帐单号码,你会发现它是

<span class="cs4904F745">76</span>

因此,在您的web抓取代码中,搜索类cs4904F745以获取账单编号。这些东西看起来可能是随机的,但我检查了一些文件,它们是一致的

您可以使用BeautifulSoup库解析HTML并搜索所需内容

如果让我猜的话,我会说标记是由某种WYSIWYG编辑器生成的(无效CSS属性(如tab-stops)的存在表明它可能是从字处理器输出的。)如果是这种情况,则输出中类的确切用法在文档之间不太可能一致

考虑到这一点,最好的选择可能是完全忽略标记并解析文本

相关问题 更多 >

    热门问题