如何在Python中提取数据时获得unicode字符串？

2024-05-20 18:45:42 发布

男 | 程序猿一只，喜欢编程写python代码。

我试图从一个越南网站上提取文本，这个字符集是utf-8。但是，我得到的文本总是Ascii格式的，我无法找到将它们转换为unicode的方法，也无法在网站上获得准确的文本。结果，我无法按预期将它们保存到文件中。
我知道这是Python中unicode非常流行的问题，但我仍然希望有人能帮助我解决这个问题。谢谢。
我的代码：

import requests, re, io
import simplejson as json
from lxml import html, etree

base = "http://www.amthuc365.vn/cong-thuc/"
page = requests.get(base + "trang-" + str(1) + ".html")
pageTree = html.fromstring(page.text)

links = pageTree.xpath('//ul[contains(@class, "mt30")]/li/a/@href')
names = pageTree.xpath('//h3[@class="title"]/a/text()')
for name in names[:1]:
    print name
    # LÃ m bÃ¡nh oreo nhÃ¢n bÆ¡ Äáºu phá»ng thÆ¡m bÃ¹i

但我需要的是“Lám bánh oreo nh’n bơ273;ậu phộng thơm bùI”
谢谢。在

Tags： text name 文本 import base names 网站 html

4条回答

网友

1楼 · 编辑于 2024-05-20 18:45:42

只要从page.text切换到page.content就可以了。在

解释here。在

另请参见：

如何在Python中提取数据时获得unicode字符串？

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何在Python中提取数据时获得unicode字符串？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >