靓汤和Unicode问题

1条回答

网友

1楼 · 发布于 2024-09-24 02:24:13

你没有遇到问题。一切都按计划进行。在

 表示non-breaking space character。它不会被替换为空格，因为它不代表一个空格；它代表一个不间断的空格。将其替换为空格将丢失信息：在该空间出现的位置，文本呈现引擎不应放置换行符。在

非中断空格的Unicode代码点是U+00A0，它在Python中用Unicode字符串写成\xa0。在

U+00A0的UTF-8编码是十六进制的两字节序列c2a0，或者用Python字符串表示形式\xc2\xa0。在UTF-8中，7位ASCII集之外的任何内容都需要两个或更多字节来表示它。在这种情况下，第八位是最高的。这意味着它可以用两字节序列（二进制）表示110xxxxx 10xxxxxx，其中x是码位的二进制表示。在A0的情况下，即10000000，或者当编码为UTF-8、11000010 10000000或c2a0时。在

许多人在HTML中使用 来获得不被通常的HTML空白折叠规则折叠的空间（在HTML中，所有连续的空格、制表符和换行符都被解释为一个空格，除非应用了CSS ^{} rules中的一个），但这并不是它们真正的用途；它们应该用于诸如名字之类的东西，比如“宫城先生”，你不希望“先生”和“宫城先生”之间出现断线。我不知道为什么在这个特殊的情况下使用它；它在这里似乎不合适，但这更多的是源代码的问题，而不是解释它的代码。在

现在，如果您不真正关心布局，所以您不介意文本布局算法是否选择将其作为包装的位置，但希望仅将其解释为常规空间，则使用NFKD规范化是一个非常合理的答案（或者NFKC，如果您更喜欢预合成重音符号而不是分解重音符号）。NFKC and NFKD normalizations映射字符，这样在大多数上下文中表示基本相同语义值的大多数字符都被展开。例如，连字被展开（ffi->；ffi），古代的长s字符被转换成s（ſ->；s），罗马数字字符被扩展成单独的字母（Ⅳ->；IV），不间断的空格转换成普通空格。对于某些字符，NFKC或NFKD规范化可能会丢失在某些上下文中很重要的信息：ℌ和ℍ都将规范化为H，但在数学文本中可以用来表示不同的东西。在

相关问题更多 >

编程相关推荐

热门问题

热门文章