我得到所有的锚链接，而不是具体的链接

from scrapy import Spider from scrapy.selector import Selector from parser_xxx.items import XxxItem class XxxSpider(Spider): name = "xxx" allowed_domains = ["xxx.xxx.com"] start_urls = ["http://xxx.xxx.com/jobs/"] def parse(self, response): quelist = Selector(response).xpath('//div[@id="job_listings"]') for que in quelist: item = XxxItem() item['title'] = que.xpath('//a//h4/text()').extract() item['link'] = que.xpath('//a/@href').extract() yield item

1条回答

网友

1楼 · 发布于 2024-06-26 15:30:42

您必须在XPath表达式前面加一个点，使其与上下文相关。另外，我认为您应该用id="job_listings"遍历div中的链接：

quelist = response.xpath('//div[@id="job_listings"]//a')
for que in quelist:
   item = XxxItem()

   item['title'] = que.xpath('.//h4/text()').extract()
   item['link']  = que.xpath('@href').extract()

   yield item

编程相关推荐

在Java中获取堆栈跟踪
java为什么这段代码会抛出我项目中随机其他代码的输出？我该怎么解决这个问题？
当有多个按钮具有相同的XPATH时，java无法单击单个按钮
java无法查询一致性，获取错误：PofExtractor必须与POFencoded二进制项一起使用；配置的序列化程序不是PofContext
如何解决java编程语言中的索引问题
java数据库版本SQLite Android
intellij idea Java企业应用程序缺少资源？
java错误的请求映射通过表单发送它
servlet上下文路径和/或servlet路径包含百分比编码的字符
java Hibernate正在@OneToOne中创建条目但未设置FK

相关问题更多 >

编程相关推荐

热门问题

热门文章