我不能用垃圾堆的规则得到数据

allowed_domains = ['guia.bcn.cat'] start_urls = ['http://guia.bcn.cat/index.php?pg=search&q=*:*'] rules = ( Rule(SgmlLinkExtractor(allow=("index.php?pg=search&from=10&q=*:*&nr=10"), restrict_xpaths=("//div[@class='paginador']",)) , callback="parse_item", follow=True),) def parse_item(self, response) ...

1条回答

网友

1楼 · 发布于 2024-09-29 05:16:52

SgmlLinkExtractor的allow参数是一个（一系列）正则表达式。所以“？”、“*”和“.”被视为特殊字符。在

您可以使用allow=(re.escape("index.php?pg=search&from=10&q=*:*&nr=10"))（在脚本开头的某个地方加上import re）

编辑：事实上，上面的规则行不通。但是，由于您已经有了要提取链接的限制区域，所以可以使用allow=('index.php')

编程相关推荐

Apache HttpClient中的java自签名证书问题
java邮件不会使用Apache Commons邮件发送
有人知道如何使用Java正则表达式测试整个字符串的匹配吗？
java获取当前行表ADF
无法在windows上使用Java打印服务API打印UTF8文档
java CPU时间百分比算法问题
java我应该关心棒棒糖和其他版本中主线程和UI线程之间的区别吗？
java如何在spring批处理中运行并行作业
java为什么我总是得到BoundsException的数组？
序列化在Java中，从文件中完全读取对象流的最佳方法是什么？

相关问题更多 >

编程相关推荐

热门问题

热门文章