我是网络垃圾的新手。我已经开始学习scrapy框架
我学习了《刮痧》的基础教程。现在,我正试图取消this页
根据this教程,要获得包含以下内容的整个html页面,应编写以下代码:
import scrapy
class ClothesSpider(scrapy.Spider):
name = "clothes"
start_urls = [
'https://www.chumbak.com/women-apparel/GY1/c/',
]
def parse(self, response):
filename = 'clothes.html'
with open(filename, 'wb') as f:
f.write(response.body)
这段代码运行良好。但我没有得到预期的结果
当我打开衣服.html时,html数据与我在浏览器中检查时的数据不同。衣服.html中缺少很多东西
我不明白这里出了什么问题。请帮我向前推。 任何帮助都将不胜感激
谢谢
此页面使用JavaScript将数据放在页面上
使用Chrome/Firefox中的DevTool,您可以看到哪些URL使用JavaScript从服务器获取此数据(选项卡网络、过滤器XHR)
然后你也可以尝试获取数据
代码使用JSON数据为10个页面生成URL并下载它们,保存在单独的文件中,生成完整的图像URL,然后将它们下载到子文件夹
full
Scrapy
还将有关下载图像的所有数据保存在output.json
中相关问题 更多 >
编程相关推荐