Python编码字符重音

2024-10-03 17:23:49 发布

您现在位置:Python中文网/ 问答频道 /正文

在我做一些数据操作之前,我有一些已经输出到本地保存为“原始”版本的html文件中的数据。你知道吗

问题是,当我处理网站时,我在处理"'"字符时遇到了麻烦。你知道吗

经过大量的研究,我已筋疲力尽了。我看到了很多关于撇号引起的问题,我尝试了编码和解码,chardet等许多版本,但仍然无法让它工作。你知道吗

一些表格中的一个词是:CA’BELLAVISTA

当我处理一个脚本时,IDE屏幕会在我得到正确的编码/解码模式后正确打印它,但是当我查看输出的HTML文件时,每次都会得到以下CA\x92BELLAVISTA。你知道吗

脚本只是一个urllib.response.read()然后编码。你知道吗

是网络浏览器做的,还是脚本没有得到正确的字符?你知道吗

下一步是加载HTML文件以进行进一步操作,并输出到JSON/csv,因此我认为在HTML文件输出上固定编码将是最好的选择。你知道吗

我认为这是一个ISO-9959-1/拉丁字符集,虽然这似乎改变了奇怪的网页。 我希望我做了正确的事情,试图把它放入UTF-8。你知道吗


Tags: 文件数据版本脚本编码网站html解码