Python用mechaniz下载网页后会写出奇怪的字符

#!/usr/bin/python # -*- coding: ISO-8859-2 -*- def url_get(url_input): #Get the webpage "Get the webpage" import mechanize url = url_input br = mechanize.Browser() br.set_handle_equiv(True) br.set_handle_redirect(True) br.set_handle_referer(True) br.set_handle_robots(False) #User-agent','Mozilla/1.22 (compatible; MSIE 10.0; Windows 3.1) br.addheaders = [('user-agent', ' Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.2.3) Gecko/20100423 Ubuntu/10.04 (lucid) Firefox/3.6.3'), ('accept', 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8')] result = br.open(url).read().lower() print result import chardet rawdata = result detection = chardet.detect(rawdata) charenc = detection['encoding'] print charenc return result text = url_get('http://hu.wikipedia.org/wiki/Csonth%C3%A9jas_term%C3%A9sek') print 'csonthéjas termések - wikipédia'

1条回答

网友

1楼 · 发布于 2024-06-11 01:00:00

页面显示为UTF-8格式。带上你的text并打印text.decode('utf-8')。当我使用requests模块阅读页面内容时，这对我很有用。在

您需要删除lower()调用，因为转换为小写可能会损坏UTF-8编码的文本。如果要转换为小写，请在解码后调用lower()。在

使用# -*- coding行时，设置脚本文件的编码。这对脚本文件读取的数据没有影响。要处理不同编码的文本数据，需要在读入数据后对其进行解码。在

相关问题更多 >

编程相关推荐

热门问题

热门文章