使用urllib2音调符号打开页面

def getSoup(url): req = urllib2.Request(url) response = urllib2.urlopen(req) page = response.read() soup = BeautifulSoup(page, 'html.parser') return soup hovienko = getSoup("http://www.hovno.cz/hovna-az/a/1/") lis = hovienko.find("div", class_="span12").find('ul').findAll('li') for liTag in lis: aTag = liTag.find('a')['href'] href = "http://www.hovno.cz"+aTag """ hrefs, I'm trying to open using urllib2 """ soup = getSoup(href.encode("iso-8859-2")) """ here occures errors when 'č','ž' or 'ř' in url """

3条回答

网友

1楼 · 编辑于 2024-09-27 17:53:32

解决办法很简单。我应该使用urllib2.quote（）。你知道吗

编辑代码：

for liTag in lis:

    aTag = liTag.find('a')['href']
    href = "http://www.hovno.cz"+urllib2.quote(aTag.encode("utf-8"))
    soup = getSoup(href)

网友

2楼 · 编辑于 2024-09-27 17:53:32

这个站点是UTF-8。为什么你需要href.encode编码（“iso-8859-2”）？我从http://programming-review.com/beautifulsoasome-interesting-python-functions/获取了下一个代码

    import urllib2
    import cgitb
    cgitb.enable()
    from BeautifulSoup import BeautifulSoup
    from urlparse import urlparse

# print all links
def PrintLinks(localurl):
    data = urllib2.urlopen(localurl).read()
    print 'Encoding of fetched HTML : %s', type(data)
    soup = BeautifulSoup(data)
    parse = urlparse(localurl)
    localurl = parse[0] + "://" + parse[1]
    print "<h3>Page links statistics</h3>"
    l = soup.findAll("a", attrs={"href":True})
    print "<h4>Total links count = " + str(len(l)) + '</h4>'
    externallinks = [] # external links list
    for link in l:
    # if it's external link
        if link['href'].find("http://") == 0 and link['href'].find(localurl) == -1:
            externallinks = externallinks + [link]
    print "<h4>External links count = " + str(len(externallinks)) + '</h4>'


    if len(externallinks) > 0:
        print "<h3>External links list:</h3>"
        for link in externallinks:
          if link.text != '':
            print '<h5>' + link.text.encode('utf-8')
            print ' => [' + '<a href="' + link['href'] + '" >' + link['href'] + '</a>' +  ']' + '</h5>'
          else:
            print '<h5>' + '[image]',
            print ' => [' + '<a href="' + link['href'] + '" >' + link['href'] + '</a>' +  ']' + '</h5>'


PrintLinks( "http://www.zlatestranky.cz/pro-mobily/")

网友

3楼 · 编辑于 2024-09-27 17:53:32

这里有几件事。你知道吗

首先，uri不能包含非ASCII。你必须更换它们。看这个： How to fetch a non-ascii url with Python urlopen?

其次，为自己省去一个痛苦的世界，使用requests来处理HTTP内容。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章