我正试图从某个网站上获取一部分。不过,这是一个带有诸如“啊”、“啊”、“啊”、“啊”等口音的网站。
当我使用urllib或urllib2获取站点时,站点源代码不是用utf-8编码的,因为utf-8支持这些重音。
我相信目标站点是用utf-8编码的,因为它包含以下元标记:
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
我的python脚本:
opener = urllib2.build_opener()
opener.addheaders = [('Accept-Charset', 'utf-8')]
url_response = opener.open(url)
deal_html = url_response.read().decode('utf-8')
然而,我不断得到的结果,看起来他们不是编码联合国utf-8。
例如:urllib2获取后,在website=“Mil\xe1n”上显示“Milán”
有什么建议吗?
目前没有回答
相关问题 更多 >
编程相关推荐