Python中文
首页
教程
问答
标签
搜索
登录
注册
如何在python中以编程方式检查url是否需要清除?
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>在python中使用一个小的webspider,使用lxml模块,我有一段代码对文档进行xpath查询,并将来自'a href'标记的所有链接放入一个列表中。我想做的是检查每个链接,因为它被添加到列表中,如果需要,取消它的景观。我理解使用urllib.unquote()函数,但我遇到的问题是urllib方法抛出了一个异常,我认为这是由于传递给该方法的每个链接都不需要回避。谁能给我指出正确的方向吗?以下是我目前掌握的代码:</p> <pre><code>import urllib import urllib2 from lxml.html import parse, tostring class Crawler(): def __init__(self, url): self.url = url self.links = [] def crawl(self): doc = parse("http://" + self.url).getroot() doc.make_links_absolute(self.url, resolve_base_href=True) for tag in doc.xpath("//a"): old = tag.get('href') fixed = urllib.unquote(old) self.links.<a href="https://www.cnpython.com/list/append" class="inner-link">append</a>(fixed) print(self.links) </code></pre>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p><code>unquote</code>不引发异常,因为URL不需要转义。您没有向我们展示异常,但我猜问题是<code>old</code>不是字符串,可能是<code>None</code>,因为您有一个没有<code>href</code>属性的<code><a></code>标记。在</p> <p>在尝试使用<code>old</code>之前,请检查它的值。在</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
如何将Python中的列表复制到给定的目标中?
10 回答
如何将python中的列表插入SQL表
2 回答
如何将python中的列表转换为numpy数组以放入十位
5 回答
如何将python中的列表输入javascript?
2 回答
如何将python中的列表返回给dag?
10 回答
如何将Python中的列表项重新排列成成对的元组/列表?
7 回答
如何将Python中的初始化对象序列化为XML?
1 回答
如何将python中的十进制字符串转换为数字?
8 回答
如何将Python中的原始输入文本转换为Tkinter中的标签?
9 回答
如何将python中的反斜杠命令转换为在Linux上运行
7 回答
如何将python中的命令行参数转换为字典?
5 回答
如何将python中的图像值传递到kivy中的kv文件?
4 回答
如何将Python中的图像数组(枕头对象)上传到Google云
2 回答
如何将Python中的图像编码为Base64?
4 回答
如何将python中的图像调整为灰度低分辨率,如MNIST时尚数据?
5 回答
如何将python中的多个html输出保存到单个文件(或多个)中?
4 回答
如何将Python中的多个ifelse语句重构为一个函数?
8 回答
如何将Python中的多处理与Django结合使用,从xml文件创建数千个模型实例?
8 回答
如何将python中的多级API响应转换为dataframe
2 回答
如何将python中的多线程编程模型转换为异步/等待模型?
3 回答