Python中文
首页
教程
问答
标签
搜索
登录
注册
蜘蛛屑指数
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>这是我一直试图在Scrapy framework中编写的Spyder1代码:</p> <pre><code>from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.selector import HtmlXPathSelector from scrapy.item import Item from firm.items import FirmItem class Spider1(CrawlSpider): domain_name = 'wc2' start_urls = ['http://www.whitecase.com/Attorneys/List.aspx?LastName=A'] rules = ( Rule(SgmlLinkExtractor(allow=["hxs.select( '//td[@class='altRow'][1]/a/@href').re('/.a\w+')"]), callback='parse'), ) def parse(self, response): hxs = HtmlXPathSelector(response) JD = FirmItem() JD['school'] = hxs.select( '//td[@class="mainColumnTDa"]').re('(?<=(JD,\s))(.*?)(\d+)' ) return JD SPIDER = Spider1() </code></pre> <p><code>rules</code>中的regex成功地从起始url中提取我想要的所有bio url:</p> ^{pr2}$ <p>但当我运行代码时</p> <pre><code>[wc2] ERROR: Error processing FirmItem(school=[]) - [Failure instance: Traceback: <type 'exceptions.IndexError'>: list index out of range </code></pre> <p>这是项目.py在</p> <pre><code>from scrapy.item import Item, Field class FirmItem(Item): school = Field() pass </code></pre> <p>你能帮我了解索引错误发生在哪里吗?在</p> <p>在我看来这跟<a href="http://doc.scrapy.org/topics/link-extractors.html#sgmllinkextractor" rel="nofollow noreferrer">SgmLinkExtractor</a>有关。在</p> <p>我几个星期来一直在努力让这只蜘蛛和痒痒一起工作。他们有一个很好的教程,但我对python和web编程还不熟悉,所以我不知道<code>SgmlLinkExtractor</code>在幕后是如何工作的。在</p> <p>对我来说,编写一个具有与Python库相同的简单功能的spider会更容易吗?如果有任何意见和帮助,我将不胜感激。在</p> <p>谢谢</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>为每个匹配的SgmlLinkExtractor调用parse函数。在</p> <p>正如Pablo提到的,你想简化你的SgmlLinkExtractor。在</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
文本导入时标题行中的特殊字符
7 回答
文本小部件:在没有输入时更新并在循环后保持空闲
1 回答
文本小部件tkin
3 回答
文本小部件tkinter中的标签更改或文本外观更改是否有撤消功能?
5 回答
文本小部件tkinter复制图像选项
4 回答
文本小部件上的Python Tkinter ttk滚动条未缩放
10 回答
文本小部件上的滚动条可能需要根据制表符ord显示前进行滚动
6 回答
文本小部件不显示lis中的内容
3 回答
文本小部件不显示Unicode字符
6 回答
文本小部件中写入的行间距
9 回答
文本小部件中的文本作为变量
10 回答
文本小部件中的滚动条仅显示在底部
7 回答
文本小部件中的选项卡键空间计数
3 回答
文本小部件作为Lis
9 回答
文本小部件在主框架中扩展列宽
1 回答
文本小部件未使用删除功能清除
1 回答
文本小部件滚动动画(Tkinter、Python)
7 回答
文本居中。格式正确吗?
5 回答
文本差分算法
8 回答
文本已知时音频文件中的单词索引
5 回答