根据我的规则,我应该使用的正确url是:http://www.lecture-en-ligne.com/towerofgod/168/0/0/1.html
scrapys从源中很好地获得了相关的url:
<a class="table" href="../../towerofgod/168/0/0/1.html">Lire en ligne</a>
但是它会很糟糕地爬行,以为双点斜杠双点是下一个要获取的url的一部分。。。在
我应该用一个自定义的进程值转换从LxmlLinkExtractor获得的双相对url吗?在
scrapy处理相对url是否正确,我的意思是它是有意的行为?在
2014-12-06 17:20:05+0100[togspider]调试:已爬网(200)http://www.tearch-en-ligne.com/manga/towerofog/>;(推荐人:无)
2014-12-06 17:20:05+0100[togspider]调试:重试http://www.tearch-en-ligne.com/../../towerofog/160/0/0/1.html>;(失败1次):400个错误请求
^{pr2}$
问题是HTML有一个不正确的HTML ^{} element ,它应该为页面中所有相关链接指定基url:
这就是为什么要形成这样的联系。在
相关问题 更多 >
编程相关推荐