Portia Spider日志在爬网期间显示['Partial']

2024-09-29 19:25:22 发布

您现在位置:Python中文网/ 问答频道 /正文

我已经使用Portiawebscraper创建了一个spider,起始URL是

https://www1.apply2jobs.com/EdwardJonesCareers/ProfExt/index.cfm?fuseaction=mExternal.searchJobs

当我把这个蜘蛛安排在

^{pr2}$

['partial']是什么意思?为什么spdier没有从页面中抓取内容?在


Tags: httpscomurlindexspider蜘蛛cfmapply2jobs
1条回答
网友
1楼 · 发布于 2024-09-29 19:25:22

很晚才回答,但希望不是没用的,因为这种行为似乎没有很好的记录。看看这个来自scrapy源的line of code,当请求遇到扭曲的潜在数据丢失错误时,partial标志被设置。根据相应的Twisted documentation

This only occurs when making requests to HTTP servers which do not set Content-Length or a Transfer-Encoding in the response

可能的原因包括:

  • 服务器配置错误
  • 有一个代理阻止了一些邮件头
  • 您得到的响应通常没有内容长度,例如重定向(301、302、303),但是您设置了handle_httpstatus_list或{},这样响应就不会被HttpErrorMiddleware过滤掉或被重定向中间件获取

相关问题 更多 >

    热门问题