我正在尝试刮取这个NREGA Website,它包含印地语的数据,即Devanagari脚本。这个结构很容易刮。但是,当我使用requests/urllib获取html代码时,印地语文本会被转换成一些胡言乱语。不过,该文本在网站的源代码中显示良好
content = requests.get(URL).text
"一,पी एस ' 在中,该站点正在被解析为“1\xe0\xa4\xaa\xe0\xa5\x80\xe0\xa4\x8f\xe0\xa4\xb8”,并被解析为内容,在我尝试导出到csv时显示为乱码
Tags:
来自服务器的响应没有在其内容类型头中指定字符集,因此请求assumes that the page is encoded as ISO-8859-1(拉丁文-1)
事实上,页面编码为UTF-8,通过检查响应的
apparent_encoding
属性可以看出:或者通过实验:
通过解码响应的
content
属性可以获得正确的输出:相关问题 更多 >
编程相关推荐