为什么json.dumps使用“\uxxx”转义非科学字符问题的回答

为什么json.dumps使用“\uxxx”转义非科学字符

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

<blockquote> Why does json.dumps escape non-ascii characters with “\uxxxx” </blockquote> Python 2可以将ascii-only-bytestrings和Unicode字符串混合在一起。 这可能是一个过早的优化。在Python 2中，如果Unicode字符串包含的字符大多在ASCII范围内，则它可能需要比相应的bytestring多2-4倍的内存。 另外，即使在今天，如果打印到Windows控制台时包含非ascii字符，则<code>print(unicode_string)</code>可能很容易失败，除非安装了类似<code>win-unicode-console</code>的Python包。如果使用C/POSIX语言环境（在许多情况下，<code>init.d</code>服务的默认值，<code>ssh</code>，<code>cron</code>），即使在Unix上也可能失败（这意味着使用ascii字符编码）。有<code>C.UTF-8</code>但是它并不总是可用的，您必须显式地配置它）。这也许可以解释为什么在某些情况下您可能需要<code>ensure_ascii=True</code>。 JSON格式是为Unicode文本定义的，因此严格来说，<code>json.dumps()</code>应该始终返回Unicode字符串，但如果所有字符都在ASCII范围内（<code>xml.etree.ElementTree</code>具有类似的“优化”），则它可能返回bytestring。Python 2允许在某些情况下（允许隐式转换）将ascii-only-bytestring视为Unicode字符串，这令人困惑。Python 3更严格（禁止隐式转换）。 可以使用ASCII-only bytestrings代替Unicode字符串（可能有非ASCII字符）来节省内存和/或提高Python 2中的互操作性。 要禁用该行为，请使用<code>json.dumps(obj, ensure_ascii=False)</code>。 <hr/> 避免将Unicode字符串与其在Python源代码中的表示形式混淆为Python字符串文本或将其在文件中的表示形式混淆为JSON文本是很重要的。 JSON格式允许转义任何字符，而不仅仅是ASCII范围之外的Unicode字符： <pre><code>>>> import json >>> json.loads(r'"\u0061"') u'a' >>> json.loads('"a"') u'a' </code></pre> 不要把它与Python中的转义混淆，Python中的字符串文本用于源代码。<code>u"\u00f8"</code>是一个单Unicode字符，但是<code>"\u00f8"</code>在输出中是八个字符（在Python源代码中，可以将其改为<code>r'"\u00f8"' == '"\\u00f8"' == u'"\\u00f8"'</code>（反斜杠在Python文本和json文本中都是特殊的，可能会发生双转义）。JSON中也没有<code>\x</code>转义： <pre><code>>>> json.loads(r'"\x61"') # invalid JSON Traceback (most recent call last): ... ValueError: Invalid \escape: line 1 column 2 (char 1) >>> r'"\x61"' # valid Python literal (6 characters) '"\\x61"' >>> '"\x61"' # valid Python literal with escape sequence (3 characters) '"a"' </code></pre> <blockquote> The output of json.dumps() is a str, which is a byte string in Python 2. And thus shouldn't it escape characters as \xhh ? </blockquote> <code>json.dumps(obj, ensure_ascii=True)</code>只生成可打印的ascii字符，因此<code>print repr(json.dumps(u"\xf8"))</code>将不包含用于表示（<code>repr()</code>）不可打印字符（字节）的<code>\xhh</code>转义。 <code>\u</code>即使对于仅限ascii的输入，也可能需要转义： <pre><code>#!/usr/bin/env python2 import json print json.dumps(map(unichr, range(128))) </code></pre> <h3>输出</h3> <pre><code>["\u0000", "\u0001", "\u0002", "\u0003", "\u0004", "\u0005", "\u0006", "\u0007", "\b", "\t", "\n", "\u000b", "\f", "\r", "\u000e", "\u000f", "\u0010", "\u0011", "\u0012", "\u0013", "\u0014", "\u0015", "\u0016", "\u0017", "\u0018", "\u0019", "\u001a", "\u001b", "\u001c", "\u001d", "\u001e", "\u001f", " ", "!", "\"", "#", "$", "%", "&", "'", "(", ")", "*", "+", ",", "-", ".", "/", "0", "1", "2", "3", "4", "5", "6", "7", "8", "9", ":", ";", "<", "=", ">", "?", "@", "A", "B", "C", "D", "E", "F", "G", "H", "I", "J", "K", "L", "M", "N", "O", "P", "Q", "R", "S", "T", "U", "V", "W", "X", "Y", "Z", "[", "\\", "]", "^", "_", "`", "a", "b", "c", "d", "e", "f", "g", "h", "i", "j", "k", "l", "m", "n", "o", "p", "q", "r", "s", "t", "u", "v", "w", "x", "y", "z", "{", "|", "}", "~", "\u007f"] </code></pre> <blockquote> But isn't this quite confusing because \uxxxx is a unicode character and should be used inside a unicode string </blockquote> <code>\uxxxx</code>是6个字符，在某些上下文（例如，在Python源代码中）中可以解释为单个字符<code>u"\uxxxx"</code>是一个Python文本，它在内存中创建一个带有单个Unicode字符的Unicode字符串。但是，如果在json文本中看到<code>\uxxxx</code>；如果加载单个Unicode字符（<code>json.loads()</code>），则六个字符可能表示该字符。 在这一点上，您应该理解为什么<code>len(json.loads('"\\\\"')) == 1</code>。

为什么json.dumps使用“\uxxx”转义非科学字符

1 个回答

相关Python问题