我已经创建了从网站中提取一些链接的代码(PDF links,),现在我需要下载这些PDF文件,但我正在努力解决如何做到这一点。代码如下:
import scrapy
class all5(scrapy.Spider):
name = "all5"
start_urls = [
'https://www.alloschool.com/course/alriadhiat-alaol-ibtdaii',
]
def parse(self, response):
for link in response.css('.default .er').xpath('@href').extract():
url=response.url
path=response.css('ol.breadcrumb li a::text').extract()
next_link = response.urljoin(link)
yield scrapy.Request(next_link,callback=self.parse_det,meta={'url' : url,'path':path})
def parse_det(self, response):
def extract_with_css(query):
return response.css(query).get(default='').strip()
yield {
'path':response.meta['path'],
'finallink': extract_with_css('a.btn.btn-primary::attr(href)'),
'url':response.meta['url']
}
我需要下载的链接是“finallink”。你知道吗
我该怎么解决这个问题?你知道吗
在设置中,您必须激活管道
下载文件的文件夹
它将下载到
FILES_STORE/full
当您生成数据时,必须使用名称
files_url
它必须是列表,即使你有一个文件下载。你知道吗
它应该将PDF下载到具有唯一名称的文件中,您可以在字段
files
的数据中获得这些文件剪贴簿:Downloading and processing files and images
编辑:独立代码-无需创建项目即可复制和运行。你知道吗
相关问题 更多 >
编程相关推荐