Scrapy Python设置用户代理

[settings] default = myproject.settings USER_AGENT = "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.93 Safari/537.36" [deploy] #url = http://localhost:6800/ project = myproject

3条回答

网友

1楼 · 编辑于 2024-05-05 06:08:56

以防有人在这里降落，手动控制抓斗。i、 e.你确实没有使用外壳上的抓取过程。。。

$ scrapy crawl myproject

但是你用CrawlerProcess()或CrawlerRunner()。。。

process = CrawlerProcess()

或者

process = CrawlerRunner()

然后，用户代理和其他设置可以在配置变量字典中传递给爬网程序。

像这样。。。

    process = CrawlerProcess(
            {
                'USER_AGENT': 'Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)'
            }
    )

网友

2楼 · 编辑于 2024-05-05 06:08:56

将用户代理行移到settings.py文件，而不是scrapy.cfg文件。settings.py应该与items.py处于同一级别，如果使用scrapy startproject命令，则应该类似于myproject/settings.py

网友

3楼 · 编辑于 2024-05-05 06:08:56

我也有同样的问题。试着以超级用户的身份运行你的蜘蛛。我是直接用命令“scrapy runspider”运行蜘蛛的，当时我只是试着用“sudo scrapy runspider”执行它。

相关问题更多 >

编程相关推荐

热门问题

热门文章