Portia Spider日志在爬网期间显示['Partial'] - 问答 - Python中文网

Portia Spider日志在爬网期间显示['Partial']

2024-09-29 19:25:22 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我已经使用Portiawebscraper创建了一个spider，起始URL是

https://www1.apply2jobs.com/EdwardJonesCareers/ProfExt/index.cfm?fuseaction=mExternal.searchJobs

当我把这个蜘蛛安排在

^{pr2}$

['partial']是什么意思？为什么spdier没有从页面中抓取内容？在

Tags： https com url index spider 蜘蛛 cfm apply2jobs

1条回答

网友

1楼 · 发布于 2024-09-29 19:25:22

很晚才回答，但希望不是没用的，因为这种行为似乎没有很好的记录。看看这个来自scrapy源的line of code，当请求遇到扭曲的潜在数据丢失错误时，partial标志被设置。根据相应的Twisted documentation：

This only occurs when making requests to HTTP servers which do not set Content-Length or a Transfer-Encoding in the response

可能的原因包括：

服务器配置错误
有一个代理阻止了一些邮件头
您得到的响应通常没有内容长度，例如重定向（301、302、303），但是您设置了handle_httpstatus_list或{}，这样响应就不会被HttpErrorMiddleware过滤掉或被重定向中间件获取

相关问题更多 >

编程相关推荐

热门问题

热门文章