所以我将一个带有.findAll
(BeautifulSoup)的html页面解析为名为result
的变量。
如果我在Python shell中键入result
,然后按Enter键,我将看到预期的正常文本,但由于我想将此结果作为string对象进行后处理,我注意到str(result)
返回垃圾,如以下示例:
\xd1\x87\xd0\xb8\xd0\xbb\xd0\xbd\xd0\xb8\xd1\x86\xd0\xb0</a><br />\n<hr />\n</div>
Html页源是utf-8
编码的
我该怎么办?
代码基本上是这样的,如果重要的话:
from BeautifulSoup import BeautifulSoup
soup = BeautifulSoup(urllib.open(url).read())
result = soup.findAll(something)
Python是2.7
Python2.6.7 美化组。版本3.2.0
这对我有效:
我很确定
result
是一个BeautifulSoup.ResultSet
对象,它似乎是标准python列表的扩展顺便说一句:美组的版本是美组-3.2.1
那不是垃圾,那是UTF-8编码的文本。Use Unicode instead.
相关问题 更多 >
编程相关推荐