擅长:python、mysql、java
<p>啊-简单!:)</p>
<p>只需打开<a href="https://github.com/scrapy/scrapy/blob/master/scrapy/core/downloader/handlers/http11.py#L307" rel="nofollow">the source code</a>错误被抛出的地方。。。页面似乎不止<code>maxsize</code>。。。这就引出了我们<a href="http://doc.scrapy.org/en/latest/topics/settings.html#download-maxsize" rel="nofollow">here</a>。在</p>
<p>所以,问题是你试图得到大文件。增加设置中的<code>DOWNLOAD_MAXSIZE</code>限制,应该没问题。在</p>
<p>注意:您的性能会受到影响,因为您阻塞了CPU来进行PDF解码,而在这种情况下,不会再发出任何请求。Scrapy的架构是严格的单线程的。以下是两种(多种解决方案中的一种):</p>
<p>a)使用<a href="http://doc.scrapy.org/en/latest/topics/media-pipeline.html#using-the-files-pipeline" rel="nofollow">file pipeline</a>下载文件,然后使用其他系统批处理它们。在</p>
<p>b)使用<code>reactor.spawnProcess()</code>并使用单独的进程进行PDF解码。(<a href="https://github.com/scalingexcellence/scrapybook/blob/master/ch09/properties/properties/pipelines/legacy.py#L16" rel="nofollow">see here</a>)。这允许您使用Python或任何其他命令行工具来进行PDF解码。在</p>