如何在python中以编程方式检查url是否需要清除？

import urllib import urllib2 from lxml.html import parse, tostring class Crawler(): def __init__(self, url): self.url = url self.links = [] def crawl(self): doc = parse("http://" + self.url).getroot() doc.make_links_absolute(self.url, resolve_base_href=True) for tag in doc.xpath("//a"): old = tag.get('href') fixed = urllib.unquote(old) self.links.append(fixed) print(self.links)

3条回答

网友

1楼 · 编辑于 2024-10-05 12:26:44

unquote不引发异常，因为URL不需要转义。您没有向我们展示异常，但我猜问题是old不是字符串，可能是None，因为您有一个没有href属性的<a>标记。在

在尝试使用old之前，请检查它的值。在

网友

2楼 · 编辑于 2024-10-05 12:26:44

你可以这样做。虽然我没有导致异常的url。所以这只是假设。看看这个方法是否有效。在

from urllib import unquote

#get url from your parse tree.
url_unq = unquote(url or '')
if not url_unq:
    url_unq = url

看看这个行不行？如果你能给出一个导致异常的URL的实际例子，那就太好了。什么例外？你能把这张纸贴出来吗？在

最坏的情况下，你总是可以用一个try-except绕过这个街区，继续你的生意。在

网友

3楼 · 编辑于 2024-10-05 12:26:44

url.find('%') > -1

或者在try..except子句中包装urllib.unquote。在

相关问题更多 >

编程相关推荐

热门问题

热门文章