scrapy LxmlLinkExtractor和相关URL

2024-09-29 23:32:25 发布

您现在位置:Python中文网/ 问答频道 /正文

根据我的规则,我应该使用的正确url是:http://www.lecture-en-ligne.com/towerofgod/168/0/0/1.html

scrapys从源中很好地获得了相关的url:

<a class="table" href="../../towerofgod/168/0/0/1.html">Lire en ligne</a>

但是它会很糟糕地爬行,以为双点斜杠双点是下一个要获取的url的一部分。。。在

我应该用一个自定义的进程值转换从LxmlLinkExtractor获得的双相对url吗?在

scrapy处理相对url是否正确,我的意思是它是有意的行为?在

2014-12-06 17:20:05+0100[togspider]调试:已爬网(200)http://www.tearch-en-ligne.com/manga/towerofog/>;(推荐人:无)

2014-12-06 17:20:05+0100[togspider]调试:重试http://www.tearch-en-ligne.com/../../towerofog/160/0/0/1.html>;(失败1次):400个错误请求

^{pr2}$

Tags: gtcomhttpurl规则htmlwwwen
1条回答
网友
1楼 · 发布于 2024-09-29 23:32:25

问题是HTML有一个不正确的HTML ^{} element,它应该为页面中所有相关链接指定基url:

<base href="http://www.lecture-en-ligne.com/"/>

这就是为什么要形成这样的联系。在

相关问题 更多 >

    热门问题