免责声明:我愚蠢的借口,但我不是一个网络程序员:D
我试图用pythonscrapy编写一个爬虫程序。当我看到这个vbulletin板时,我遇到了一些奇怪的行为。当我在firefox中加载页面并使用firefox/firebug检查它时,我看到forum L1头有一个类forumbit_nopost new L1
(您可以在文档中搜索cat117以获得感兴趣的元素)。在
当我使用scrapy或curl检索文档时,我将类设置为forumbit_nopost old L1
。在使用curl时,我更改了用户代理以匹配firefox的用户代理,这没有什么区别,所以我怀疑这与javascript的执行有关。我尝试过在firefox中禁用javascript,但是firefox仍然有源代码,它有class属性的new
变量。在
有人能给我解释一下发生了什么事吗?:天
另外,chrome也看到了old
变体。在
使用的curl命令:
curl http://forums.heroesofnewerth.com/index.php --user-agent "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:12.0) Gecko/20100101 Firefox/12.0" > scratch
我敢打赌,新的意味着自从你上次访问以来,有新的帖子。除非在会话之间保留cookies,否则脚本永远不会显示此内容。在
相关问题 更多 >
编程相关推荐