vbulletin动态爬行中的几个问题

2024-10-02 20:39:39 发布

男 | 程序猿一只，喜欢编程写python代码。

免责声明：我愚蠢的借口，但我不是一个网络程序员：D

我试图用pythonscrapy编写一个爬虫程序。当我看到这个vbulletin板时，我遇到了一些奇怪的行为。当我在firefox中加载页面并使用firefox/firebug检查它时，我看到forum L1头有一个类forumbit_nopost new L1（您可以在文档中搜索cat117以获得感兴趣的元素）。在

当我使用scrapy或curl检索文档时，我将类设置为forumbit_nopost old L1。在使用curl时，我更改了用户代理以匹配firefox的用户代理，这没有什么区别，所以我怀疑这与javascript的执行有关。我尝试过在firefox中禁用javascript，但是firefox仍然有源代码，它有class属性的new变量。在

有人能给我解释一下发生了什么事吗？：天

另外，chrome也看到了old变体。在

使用的curl命令：

curl http://forums.heroesofnewerth.com/index.php --user-agent "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:12.0) Gecko/20100101 Firefox/12.0" > scratch

Tags：用户文档网络声明 l1 代理 new curl

1条回答

网友

1楼 · 发布于 2024-10-02 20:39:39

我敢打赌，新的意味着自从你上次访问以来，有新的帖子。除非在会话之间保留cookies，否则脚本永远不会显示此内容。在

vbulletin动态爬行中的几个问题

相关问题更多 >

编程相关推荐

热门问题

热门文章

vbulletin动态爬行中的几个问题

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >