Python编码字符重音

2024-10-03 17:23:49 发布

男 | 程序猿一只，喜欢编程写python代码。

在我做一些数据操作之前，我有一些已经输出到本地保存为“原始”版本的html文件中的数据。你知道吗

问题是，当我处理网站时，我在处理"'"字符时遇到了麻烦。你知道吗

经过大量的研究，我已筋疲力尽了。我看到了很多关于撇号引起的问题，我尝试了编码和解码，chardet等许多版本，但仍然无法让它工作。你知道吗

一些表格中的一个词是：CA’BELLAVISTA

当我处理一个脚本时，IDE屏幕会在我得到正确的编码/解码模式后正确打印它，但是当我查看输出的HTML文件时，每次都会得到以下CA\x92BELLAVISTA。你知道吗

脚本只是一个urllib.response.read()然后编码。你知道吗

是网络浏览器做的，还是脚本没有得到正确的字符？你知道吗

下一步是加载HTML文件以进行进一步操作，并输出到JSON/csv，因此我认为在HTML文件输出上固定编码将是最好的选择。你知道吗

我认为这是一个ISO-9959-1/拉丁字符集，虽然这似乎改变了奇怪的网页。我希望我做了正确的事情，试图把它放入UTF-8。你知道吗

Tags：文件数据版本脚本编码网站 html 解码

0条回答

目前没有回答