用“无意义”标签抓取网页

2条回答

网友

1楼 · 编辑于 2024-09-28 03:17:45

在浏览器中打开页面，右键单击希望能够拉取的内容，然后使用检查，查看用于该元素的类名。例如，如果你检查帐单号码，你会发现它是

<span class="cs4904F745">76</span>

因此，在您的web抓取代码中，搜索类cs4904F745以获取账单编号。这些东西看起来可能是随机的，但我检查了一些文件，它们是一致的

您可以使用BeautifulSoup库解析HTML并搜索所需内容

网友
2楼 · 编辑于 2024-09-28 03:17:45

如果让我猜的话，我会说标记是由某种WYSIWYG编辑器生成的(无效CSS属性（如tab-stops）的存在表明它可能是从字处理器输出的。）如果是这种情况，则输出中类的确切用法在文档之间不太可能一致
考虑到这一点，最好的选择可能是完全忽略标记并解析文本