urllib:获取utf8编码的站点源代码

2024-09-29 06:27:53 发布

您现在位置:Python中文网/ 问答频道 /正文

我正试图从某个网站上获取一部分。不过,这是一个带有诸如“啊”、“啊”、“啊”、“啊”等口音的网站。

当我使用urllib或urllib2获取站点时,站点源代码不是用utf-8编码的,因为utf-8支持这些重音。

我相信目标站点是用utf-8编码的,因为它包含以下元标记:

<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />

我的python脚本:

opener = urllib2.build_opener()
opener.addheaders = [('Accept-Charset', 'utf-8')]
url_response = opener.open(url)
deal_html = url_response.read().decode('utf-8')

然而,我不断得到的结果,看起来他们不是编码联合国utf-8。

例如:urllib2获取后,在website=“Mil\xe1n”上显示“Milán”

有什么建议吗?


Tags: url编码源代码站点网站responsehtmlopener