蜘蛛屑指数

from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.selector import HtmlXPathSelector from scrapy.item import Item from firm.items import FirmItem class Spider1(CrawlSpider): domain_name = 'wc2' start_urls = ['http://www.whitecase.com/Attorneys/List.aspx?LastName=A'] rules = ( Rule(SgmlLinkExtractor(allow=["hxs.select( '//td[@class='altRow'][1]/a/@href').re('/.a\w+')"]), callback='parse'), ) def parse(self, response): hxs = HtmlXPathSelector(response) JD = FirmItem() JD['school'] = hxs.select( '//td[@class="mainColumnTDa"]').re('(?<=(JD,\s))(.*?)(\d+)' ) return JD SPIDER = Spider1()

3条回答

网友

1楼 · 编辑于 2024-10-04 11:27:08

SgmlLinkExtractor在其“allow”参数中不支持选择器。在

所以这是错误的：

SgmlLinkExtractor(allow=["hxs.select('//td[@class='altRow'] ...')"])

这是对的：

^{2}$

网友

2楼 · 编辑于 2024-10-04 11:27:08

为每个匹配的SgmlLinkExtractor调用parse函数。在

正如Pablo提到的，你想简化你的SgmlLinkExtractor。在

网友

3楼 · 编辑于 2024-10-04 11:27:08

我还尝试将从初始url中获取的名称放入一个列表中，然后将每个名称以绝对url的形式传递给解析，即http://www.whitecase.com/aabbas（for/aabbas）。在

下面的代码在列表中循环，但我不知道如何将其传递给parse。你认为这是个更好的主意吗？在

baseurl = 'http://www.whitecase.com'
names = ['aabbas', '/cabel', '/jacevedo', '/jacuna', '/igbadegesin']

def makeurl(baseurl, names):
  for x in names:
      url = baseurl + x
      baseurl = 'http://www.whitecase.com'
      x = ''
      return url

相关问题更多 >

编程相关推荐

热门问题

热门文章