Python中文
首页
教程
问答
标签
搜索
登录
注册
将messedup编码类型的文件转换为usab
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我正在尝试清理页面的<em>内容</em>,该链接是通过SPARQL查询获得的:</p> <pre><code>http://www.rechercheisidore.fr/sparql/query?query=PREFIX+dcterms%3A+%3Chttp%3A%2F%2Fpurl.org%2Fdc%2Fterms%2F%3E+PREFIX+foaf%3A+%3Chttp%3A%2F%2Fxmlns.com%2Ffoaf%2F0.1%2F%3E+SELECT+%3Furicollection+%3Ftitrecollection+%3Fdescription+%3Fadresseweb+WHERE+{+%3Furicollection+%3Fpredicat+%3Chttp%3A%2F%2Fwww.rechercheisidore.fr%2Fclass%2FCollection%3E.+%3Furicollection+dcterms%3Atitle+%3Ftitrecollection.+%3Furicollection+dcterms%3Adescription+%3Fdescription.+%3Furicollection+foaf%3Ahomepage+%3Fadresseweb.+}+ORDER+BY+ASC%28%3Ftitrecollection%29+LIMIT+300&format=application%2Frdf%2Bxml </code></pre> <p>这页是用法语写的。每个带重音的字母都不能正确显示,当试图用Python中的好字符替换这些字符时,它会返回错误。我试图将文件转换为UTF-8,但这并没有解决任何问题(实际上它已经是UTF-8格式的),因此产生了一个混乱的结果(网站的一位工程师确认这是他们的三重存储区中的一个bug)。例如:您应该看到<code>é</code>,而不是<code>é</code>。在</p> <p>我希望有一个文件,我至少可以使用python2.7<code>str.replace()</code>函数来返回正确的字符——或者有更好的方法来实现这一点?在</p> <p>来自RDF XML文件的示例演示了该问题:</p> ^{pr2}$
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>页面的问题似乎是服务器将文本编码为UTF-8,然后将UTF-8作为拉丁语1处理,并再次用UTF-8编码。要扭转这种情况,请以UTF-8形式读入文件,将其编码为拉丁1字节字符串,然后将字节解码为UTF-8。在</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
如何添加虚拟方法
3 回答
如何添加表示整数的擦边字符串?
6 回答
如何添加要在Bokeh中使用的新font.ttf文件?
9 回答
如何添加要显示的矩阵XY轴编号和XY轴
8 回答
如何添加计数?
2 回答
如何添加计数器函数?
4 回答
如何添加计数器列来计算数据帧中另一列中的特定值?
9 回答
如何添加计数器来跟踪while循环中的月份和年份?
1 回答
如何添加计数并删除countplot的顶部和右侧脊椎?
6 回答
如何添加计时器wx.应用程序更新窗口对象的主循环?
8 回答
如何添加评论到帖子?PostDetailVew,Django 2.1.5
3 回答
如何添加评论拉梅尔亚姆
7 回答
如何添加诸如矩阵Python/Pandas之类的数据帧?
9 回答
如何添加谷歌地点自动完成到Flask?
4 回答
如何添加超时、python discord bot
10 回答
如何添加超过1dp的检查
9 回答
如何添加距离方法
3 回答
如何添加跟随游戏的敌人精灵
4 回答
如何添加路径以便python可以找到程序?
3 回答
如何添加身份验证/安全性以使用happybase访问HBase?
6 回答