html get请求不传递包含元音/非ascii字符的标记

2024-09-22 14:29:56 发布

您现在位置:Python中文网/ 问答频道 /正文

我在用python做一个get请求

r = requests.get('http://www.lidl.de/de/billiger')
html_file = r.text

这个网站展示了现在比较便宜的产品。 就像你在网页上看到的,产品5和6有德语元音(“ä”)

如果您查看变量html\u文件,您将看到这两个条目完全丢失。 如果我用firefox下载这个文件并直接处理这个文件,我就有了其中的条目。你知道吗

所以requestsurllib2以某种方式删除这些条目。编码是UTF-8,这和我浏览到那个站点时firefox发出的get请求是一样的。你知道吗

有人知道怎么解决吗?你知道吗

敬礼


Tags: 文件texthttpget产品网站htmlwww