使用Python Scrapy时的HTTP 403响应

from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.selector import Selector from scrapy.item import Item from scrapy.spider import BaseSpider from scrapy import log from scrapy.cmdline import execute from scrapy.utils.markup import remove_tags class ExampleSpider(CrawlSpider): name = "goal3" allowed_domains = ["whoscored.com"] start_urls = ["http://www.whoscored.com/"] rules = [Rule(SgmlLinkExtractor(allow=()), follow=True), Rule(SgmlLinkExtractor(allow=()), callback='parse_item') ] def parse_item(self,response): self.log('A response from %s just arrived!' % response.url) scripts = response.selector.xpath("normalize-space(//title)") for scripts in scripts: body = response.xpath('//p').extract() body2 = "".join(body) print remove_tags(body2).encode('utf-8') execute(['scrapy','crawl','goal3'])

2条回答

网友

1楼 · 编辑于 2024-09-29 08:19:34

HTTP状态代码403绝对意味着禁止/拒绝访问
HTTP状态代码302用于请求的重定向。不用担心他们。
你的代码好像没什么问题。

是的，这肯定是网站实施的一项防刮措施。

参考这些来自废弃文档的指南：Avoid Getting Banned

另外，您应该考虑pausing and resuming crawls。

网友

2楼 · 编辑于 2024-09-29 08:19:34

如果这仍然可用，我不知道，但是我必须在setting.py文件中放置下一行：

HTTPERROR_ALLOWED_CODES  =[404]
USER_AGENT = 'quotesbot (+http://www.yourdomain.com)'
USER_AGENT = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.131 Safari/537.36"

希望有帮助。

相关问题更多 >

编程相关推荐

热门问题

热门文章