vbulletin动态爬行中的几个问题

2024-10-02 20:39:39 发布

您现在位置:Python中文网/ 问答频道 /正文

免责声明:我愚蠢的借口,但我不是一个网络程序员:D

我试图用pythonscrapy编写一个爬虫程序。当我看到这个vbulletin板时,我遇到了一些奇怪的行为。当我在firefox中加载页面并使用firefox/firebug检查它时,我看到forum L1头有一个类forumbit_nopost new L1(您可以在文档中搜索cat117以获得感兴趣的元素)。在

当我使用scrapy或curl检索文档时,我将类设置为forumbit_nopost old L1。在使用curl时,我更改了用户代理以匹配firefox的用户代理,这没有什么区别,所以我怀疑这与javascript的执行有关。我尝试过在firefox中禁用javascript,但是firefox仍然有源代码,它有class属性的new变量。在

有人能给我解释一下发生了什么事吗?:天

另外,chrome也看到了old变体。在

使用的curl命令:

curl http://forums.heroesofnewerth.com/index.php --user-agent "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:12.0) Gecko/20100101 Firefox/12.0" > scratch

Tags: 用户文档网络声明l1代理newcurl