从pag中删除特定元素

import scrapy class DmozSpider(scrapy.Spider): name = "dmoz" allowed_domains = ["fali.org"] start_urls = [ "http://www.fali.org/members/", ] def parse(self, response): filename = response.url.split("/?id=")[-2] + '%random%' with open(filename, 'wb') as f: f.write(response.body)

2条回答

网友

1楼 · 编辑于 2024-10-05 11:21:47

shark3y声明in his answer，start_url会被重定向到主页面。你知道吗

如果您阅读了文档，您应该知道Scrapy是从start_url开始刮的，它不知道您想要实现什么。你知道吗

在您的例子中，您需要从http://www.fali.org/search/newsearch.asp开始，它返回所有成员的搜索结果。现在您可以设置一个Rule来遍历结果列表，并为找到的每个成员调用一个parse_detail方法，并通过结果分页跟踪链接。你知道吗

在parse_detail方法中，您可以遍历成员的站点并提取所需的所有信息。我猜你不需要整个网站，因为它会在你的计算机上生成大量数据，最后你必须解析它。你知道吗

网友

2楼 · 编辑于 2024-10-05 11:21:47

我看不到页面： http://www.fali.org/members/

相反，它会重定向到主页。你知道吗

这使得无法给出具体细节。你知道吗

举个例子：

    article_title = response.xpath("//td[@id='HpWelcome']/h2/text()").extract()

从他们的研究中解析出“佛罗里达持照调查者协会（FALI）”主页。你呢可以获得浏览器插件来帮助您了解XPath。chrome上的XPath助手使它变得简单。你知道吗

也就是说，浏览上面发布的教程。因为你会有更多的问题，我敢肯定，像这样宽泛的问题在堆栈溢出上不会被很好地接受。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章