如何抓取一个树结构的网站，并保持在输出的Json-fi结构问题的回答

如何抓取一个树结构的网站，并保持在输出的Json-fi结构

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我试图抓取一个有树结构的网站，我想在输出的json文件中重新创建树结构。在 所有的页面都有相同的结构，我必须从一个页面中获取一些字段，然后转到每个链接的子页面并获得相同的字段，等等。。。在 json文件中的项输出如下所示（简化后）： <pre><code>{"Organiation": [{"Administration": "name_adm", "Rattachement": ["ratt_a", "ratt_b"], "Organiation": [{"Administration": "name_adm", "Rattachement": ["ratt_a", "ratt_b"], "Organiation": [{"Administration": "name_adm", "Rattachement": ["ratt_a", "ratt_b"], "Organiation": [null] }], "Organiation": [{"Administration": "name_adm", "Rattachement": ["ratt_a", "ratt_b"], "Organiation": [{"Administration": "name_adm", "Rattachement":["ratt_a", "ratt_b"], "Organiation": [null] }] }] }] }] } </code></pre> 我之所以能这样做，是为了每页获得一个项目： ^{pr2}$ 我花了很多时间试图找到一种方法来实现这一点，但是没有成功，我探索了递归性的选项，但是我没能让它工作，主要是因为我现在不知道如何使用“callback”递归地进行解析（parse函数见下面的代码）。在 以下是我目前所得到的： <pre><code>def parse(self, response): for url in response.xpath('//ul[@class = "list-arrow list-narrow"]/li/a/@href').extract(): yield scrapy.Request(url, callback=self.parse_dir_contents) def parse_dir_contents(self, response): page = PageItem() page['Administration'] = response.xpath('//div[@class = "panel-body"]/p/span/text()' ).extract() Rattachements = [] for site in response.xpath('//ul[@class ="list-connected"]/li'): Rattachements.<a href="https://www.cnpython.com/list/append" class="inner-link">append</a>(site.xpath('a/text()').extract()) page['Rattachement'] = Rattachements Organisations = [] for site in response.xpath('//ul[@data-test="organizations"]/li/a'): Organisations.append(site.xpath('text()').extract()) page['Organisation'] = Organisations yield page URLS = response.xpath('//ul[@data-test="organizations"]/li/a/@href').extract() for url in URLS: yield scrapy.Request(url, callback=self.parse_dir_contents) </code></pre> 最后一段代码允许我将每一页放在一个项目中： <pre><code> URLS = response.xpath('//ul[@data-test="organizations"]/li/a/@href').extract() for url in URLS: yield scrapy.Request(url, callback=self.parse_dir_contents) </code></pre> URL是指向给定页面的下一级子页面的链接。在 当我不能得到树结构时，下一个最佳的想法是把子页面链接的文本列表放入“组织”，但是如果我能得到树结构，我就不需要把这个列表保存在“组织”中。在 如何更改代码以便在Json输出中保留网站的树结构。在 谢谢

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

如何抓取一个树结构的网站，并保持在输出的Json-fi结构

1 个回答

相关Python问题