如何抓取一个树结构的网站，并保持在输出的Json-fi结构

{"Organiation": [{"Administration": "name_adm", "Rattachement": ["ratt_a", "ratt_b"], "Organiation": [{"Administration": "name_adm", "Rattachement": ["ratt_a", "ratt_b"], "Organiation": [{"Administration": "name_adm", "Rattachement": ["ratt_a", "ratt_b"], "Organiation": [null] }], "Organiation": [{"Administration": "name_adm", "Rattachement": ["ratt_a", "ratt_b"], "Organiation": [{"Administration": "name_adm", "Rattachement":["ratt_a", "ratt_b"], "Organiation": [null] }] }] }] }] }

def parse(self, response): for url in response.xpath('//ul[@class = "list-arrow list-narrow"]/li/a/@href').extract(): yield scrapy.Request(url, callback=self.parse_dir_contents) def parse_dir_contents(self, response): page = PageItem() page['Administration'] = response.xpath('//div[@class = "panel-body"]/p/span/text()' ).extract() Rattachements = [] for site in response.xpath('//ul[@class ="list-connected"]/li'): Rattachements.append(site.xpath('a/text()').extract()) page['Rattachement'] = Rattachements Organisations = [] for site in response.xpath('//ul[@data-test="organizations"]/li/a'): Organisations.append(site.xpath('text()').extract()) page['Organisation'] = Organisations yield page URLS = response.xpath('//ul[@data-test="organizations"]/li/a/@href').extract() for url in URLS: yield scrapy.Request(url, callback=self.parse_dir_contents)

2条回答

网友

1楼 · 编辑于 2024-10-05 17:27:41

您可以通过在Spider中创建一个实例变量，然后在解析函数中向其添加数据来实现这一点。最后，在所有的抓取完成之后，您可以将数据返回到Scrapy框架中进行输出。在

This spider就是一个很好的例子。在

网友

2楼 · 编辑于 2024-10-05 17:27:41

尝试使用jsonmergejsonmerge包将当前输出合并在一起。在

并在所有合并完成后返回项，您可以使用空闲处理程序来实现这一点。在

相关问题更多 >

编程相关推荐

热门问题

热门文章