scrapy LxmlLinkExtractor和相关URL

2024-09-29 23:32:25 发布

男 | 程序猿一只，喜欢编程写python代码。

scrapys从源中很好地获得了相关的url：

<a class="table" href="../../towerofgod/168/0/0/1.html">Lire en ligne</a>

但是它会很糟糕地爬行，以为双点斜杠双点是下一个要获取的url的一部分。。。在

我应该用一个自定义的进程值转换从LxmlLinkExtractor获得的双相对url吗？在

scrapy处理相对url是否正确，我的意思是它是有意的行为？在

2014-12-06 17:20:05+0100[togspider]调试：已爬网（200）http://www.tearch-en-ligne.com/manga/towerofog/>；（推荐人：无）

2014-12-06 17:20:05+0100[togspider]调试：重试http://www.tearch-en-ligne.com/../../towerofog/160/0/0/1.html>；（失败1次）：400个错误请求

^{pr2}$

Tags： gt com http url 规则 html www en

1条回答

网友

1楼 · 发布于 2024-09-29 23:32:25

问题是HTML有一个不正确的HTML ^{} element，它应该为页面中所有相关链接指定基url：

<base href="http://www.lecture-en-ligne.com/"/>

这就是为什么要形成这样的联系。在