擅长:python、mysql、java
<p>您当前的方法还不错,但您可能应该使用<a href="http://docs.python.org/2/library/unicodedata.html#unicodedata.normalize" rel="nofollow">^{<cd1>}</a>进行比较。上面链接的文档解释了为什么这是个好主意。例如,尝试评估以下内容:</p>
<pre><code>u'Ç' == u'Ç'
</code></pre>
<p>扰流板警报,这将给您<code>False</code>,因为左侧是序列U+0043(拉丁文大写字母C)U+0327(组合加符),右侧是单个字符U+00C7(拉丁文大写字母C加上加符)。在</p>
<p>您可以使用<code>unicodedata.normalize()</code>正确地处理这个问题,方法是首先将字符串转换为规范化的形式。例如:</p>
^{pr2}$