Python中文
首页
教程
问答
标签
搜索
登录
注册
scrapy python find href递归引用
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我正在尝试从起始页查找并打印所有href:</p> <pre><code>class Ejercicio2(scrapy.Spider): name = "Ejercicio2" Ejercicio2 = {} category = None lista_urls =[] #defino una lista para meter las urls def __init__(self, *args, **kwargs): super(Ejercicio2, self).__init__(*args, **kwargs) self.start_urls = ['http://www.masterdatascience.es/'] self.allowed_domains = ['www.masterdatascience.es/'] url = ['http://www.masterdatascience.es/'] def parse(self, response): print(response) # hay_enlace=response.css('a::attr(href)') # if hay_enlace: links = response.xpath("a/@href") for el in links: url = response.css('a::attr(href)').extract() print(url) next_url = response.urljoin(el.xpath("a/@href").extract_first()) print(next_url) print('pasa por aqui') yield scrapy.Request(url, self.parse()) # yield scrapy.Request(next_url, callback=self.parse) print(next_url) </code></pre> <p>但并没有如预期的那样工作,没有遵循“href”遇到的引用,只有第一个引用。在</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>您可以尝试将xpath修改为//a/@href</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
如何添加虚拟方法
8 回答
如何添加表示整数的擦边字符串?
10 回答
如何添加要在Bokeh中使用的新font.ttf文件?
8 回答
如何添加要显示的矩阵XY轴编号和XY轴
5 回答
如何添加计数?
2 回答
如何添加计数器函数?
3 回答
如何添加计数器列来计算数据帧中另一列中的特定值?
8 回答
如何添加计数器来跟踪while循环中的月份和年份?
6 回答
如何添加计数并删除countplot的顶部和右侧脊椎?
5 回答
如何添加计时器wx.应用程序更新窗口对象的主循环?
1 回答
如何添加评论到帖子?PostDetailVew,Django 2.1.5
1 回答
如何添加评论拉梅尔亚姆
1 回答
如何添加诸如矩阵Python/Pandas之类的数据帧?
10 回答
如何添加谷歌地点自动完成到Flask?
3 回答
如何添加超时、python discord bot
5 回答
如何添加超过1dp的检查
4 回答
如何添加距离方法
5 回答
如何添加跟随游戏的敌人精灵
3 回答
如何添加路径以便python可以找到程序?
8 回答
如何添加身份验证/安全性以使用happybase访问HBase?
6 回答