我使用的是scrapy 1.0.3。这是我的蜘蛛文件代码
from scrapy import Spider
from scrapy.selector import Selector
from parser_xxx.items import XxxItem
class XxxSpider(Spider):
name = "xxx"
allowed_domains = ["xxx.xxx.com"]
start_urls = ["http://xxx.xxx.com/jobs/"]
def parse(self, response):
quelist = Selector(response).xpath('//div[@id="job_listings"]')
for que in quelist:
item = XxxItem()
item['title'] = que.xpath('//a//h4/text()').extract()
item['link'] = que.xpath('//a/@href').extract()
yield item
但是,我得到所有的锚链接和所有的标题。我哪里错了?在
提前谢谢!在
您必须在XPath表达式前面加一个点,使其与上下文相关。另外,我认为您应该用
id="job_listings"
遍历div
中的链接:相关问题 更多 >
编程相关推荐