在Python中显示HTML请求时编码错误

网友

1楼 · 编辑于 2024-06-25 23:04:55

这些是HTML character entity references，最简单的解码方法是：

在Python 2.x中：

>>> import HTMLParser
>>> HTMLParser.HTMLParser().unescape('oubli&eacute;')
'oublié'

在Python 3.x中：

^{pr2}$

网友

2楼 · 编辑于 2024-06-25 23:04:55

它们是在HTML编码字符集中定义的HTML escape codes。即使某个文档可以用UTF-8编码，HTML（及其祖辈SGML）还是在ASCII的旧时代定义的。一个访问WWW上HTML页面的系统可能本身就支持扩展字符，也可能不支持，开发人员需要一种方法为某些用户定义“高级”字符，而对于其他系统不支持这些字符的用户，则会出现错误。由于UTF-8标准化在当时的创始人眼中只是一线曙光，因此开发了一种编码系统来描述不属于ASCII的字符。由浏览器开发人员来实现一种显示这些扩展字符的方法，可以是通过glyph，也可以是通过扩展字体。在

网友

3楼 · 编辑于 2024-06-25 23:04:55

使用&sometihg;对特殊字符进行编码在任何HTML中都是“合法的”，尽管看起来有点奇怪，但它们被认为是有效的。在

文本应该由某个HTML浏览器呈现，它将产生正确的结果，不管你发现这些字符是使用给定的构造还是直接编码的。在

有关如何转换这些编码字符的说明，请参见HTML Entity Codes to Text

相关问题更多 >

编程相关推荐

热门问题

热门文章