Python中文
首页
教程
问答
标签
搜索
登录
注册
基于Python-Scrapy-mimetype的过滤器可避免非文本文件下载
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我有一个正在运行的scrapy项目,但它是带宽密集型的,因为它试图下载大量的二进制文件(zip、tar、mp3等等)。在</p> <p>我认为最好的解决方案是基于mimetype(Content-Type:)HTTP报头过滤请求。我看了看代码,发现了这个设置:</p> <pre><code>DOWNLOADER_HTTPCLIENTFACTORY = 'scrapy.core.downloader.webclient.ScrapyHTTPClientFactory' </code></pre> <p>我把它改成: DOWNLOADER_HTTPCLIENTFACTORY='myproject.WebClient.ScrapyHttpClient工厂'</p> <p>在使用<code>ScrapyHTTPPageGetter</code>时,以下是突出显示的编辑:</p> ^{pr2}$ <p>我觉得这是错误的,我需要更多的破烂友好的方式取消/删除请求后,立即确定它是不需要的mimetype。而不是等待整个数据被下载。在</p> <p><strong>编辑:</strong><br/> 我特别问这个问题<code>self.factory.noPage(Exception('Incorrect Content-Type'))</code>这是取消请求的正确方法吗。在</p> <p><strong>更新1:</strong><br/> 我当前的设置已经使垃圾服务器崩溃,所以请不要尝试使用上面相同的代码来解决问题。在</p> <p><strong>更新2:</strong><br/> 我建立了一个基于Apache的网站,使用以下结构进行测试:</p> <pre><code>/var/www/scrapper-test/Zend -> /var/www/scrapper-test/Zend.zip (symlink) /var/www/scrapper-test/Zend.zip </code></pre> <p>我注意到,Scrapy丢弃了带有<code>.zip</code>扩展名的,但是删除了没有.zip的扩展名,尽管它只是指向它的符号链接。在</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>也许已经很晚了。您可以使用Accept头来过滤要查找的数据。在</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
如何添加虚拟方法
2 回答
如何添加表示整数的擦边字符串?
6 回答
如何添加要在Bokeh中使用的新font.ttf文件?
7 回答
如何添加要显示的矩阵XY轴编号和XY轴
10 回答
如何添加计数?
6 回答
如何添加计数器函数?
5 回答
如何添加计数器列来计算数据帧中另一列中的特定值?
3 回答
如何添加计数器来跟踪while循环中的月份和年份?
6 回答
如何添加计数并删除countplot的顶部和右侧脊椎?
6 回答
如何添加计时器wx.应用程序更新窗口对象的主循环?
3 回答
如何添加评论到帖子?PostDetailVew,Django 2.1.5
8 回答
如何添加评论拉梅尔亚姆
10 回答
如何添加诸如矩阵Python/Pandas之类的数据帧?
1 回答
如何添加谷歌地点自动完成到Flask?
10 回答
如何添加超时、python discord bot
2 回答
如何添加超过1dp的检查
6 回答
如何添加距离方法
10 回答
如何添加跟随游戏的敌人精灵
4 回答
如何添加路径以便python可以找到程序?
3 回答
如何添加身份验证/安全性以使用happybase访问HBase?
2 回答