允许所有子域

def parse_page(self, response): sel = Selector(response) item_links = sel.xpath("XXXXXXXXX").extract() for item_link in item_links: item_request = Request(url=item_link, callback=self.parse_item) yield item_request def parse_item(self, response): sel = Selector(response)

2条回答

网友

1楼 · 编辑于 2024-05-17 05:27:04

您可以为规则设置allow_domains列表：

rules = (
       Rule(SgmlLinkExtractor(allow_domains=('domain1','domain2' ), ),)

例如：

^{pr2}$

这将筛选允许的URL，如：

www.example.com/blaa/bla/
www.example1.com/blaa/bla/
www.something.example.com/blaa/bla/

网友

2楼 · 编辑于 2024-05-17 05:27:04

如果不使用规则，而是使用Spider的allowed_domainsclass属性，那么还可以设置allowed_domains = ['example.com']。这将允许example.com的所有子域，例如foo.example.com。在

编程相关推荐

java文件分块，获取长度字节
java嵌入式Tomcat不执行jsf页面
java我的数据库中有2个实体，但hibernate返回其中6个。
java如何基于逗号拆分字符串
java取消已经运行的CompletableFutures的预期模式是什么
java如何在informix中从另一个数据库复制表ddl和数据
为什么图片是黑色的？
java根据字符串数组中的单词筛选列表
Java8的集合。平行流有效吗？
Kotlin中的java静态内部类

相关问题更多 >

编程相关推荐

热门问题

热门文章