我在做刮网器。
我访问google搜索,得到网页的链接,然后得到标签的内容
问题是,例如,字符串"P\xe1gina N\xe3o Encontrada!"
应该是"Página Não Encontrada!"
。
我试着解码成拉丁语-1,然后编码成utf-8,但没有成功。
r2 = requests.get(item_str)
texto_pagina = r2.text
soup_item = BeautifulSoup(texto_pagina,"html.parser")
empresa = soup_item.find_all("title")
print(empresa_str.decode('latin1').encode('utf8'))
你能帮帮我吗? 谢谢!
您可以将检索到的文本变量更改为如下内容:
在打印后,它似乎对我很好。
编辑
不是添加
.encode('utf8')
,而是尝试使用empresa_str.decode('latin1')
?如所示:
不是最优雅的解决方案,但对我有效:
相关问题 更多 >
编程相关推荐