忽略Python字符串中的大小写

3条回答

网友

1楼 · 编辑于 2024-10-06 07:18:26

作为对你澄清的回应。。。

您可以使用ctypes来执行c函数“strcasecmp”。Ctypes包含在Python2.5中。它提供了调用dll和libc等共享库的能力。下面是一个简单的示例（Linux上的Python；请参阅Win32帮助的链接）：

from ctypes import *
libc = CDLL("libc.so.6")  // see link above for Win32 help
libc.strcasecmp("THIS", "this") // returns 0
libc.strcasecmp("THIS", "THAT") // returns 8

可能还想引用strcasecmp documentation

不确定这是快还是慢（还没有测试过），但这是一种使用C函数进行不区分大小写字符串比较的方法。

~~~~~~~~~~~~~~~~~~

ActiveState Code - Recipe 194371: Case Insensitive Strings 是创建不区分大小写的字符串类的配方。它可能有点过于简单，但如果您打算经常使用不区分大小写的字符串，则可以为您提供一种处理这些字符串的通用方法。

网友

2楼 · 编辑于 2024-10-06 07:18:26

下面是一个基准测试，它表明使用^{}比接受答案建议的方法（libc.strcasecmp）更快：

#!/usr/bin/env python2.7
import random
import timeit

from ctypes import *
libc = CDLL('libc.dylib') # change to 'libc.so.6' on linux

with open('/usr/share/dict/words', 'r') as wordlist:
    words = wordlist.read().splitlines()
random.shuffle(words)
print '%i words in list' % len(words)

setup = 'from __main__ import words, libc; gc.enable()'
stmts = [
    ('simple sort', 'sorted(words)'),
    ('sort with key=str.lower', 'sorted(words, key=str.lower)'),
    ('sort with cmp=libc.strcasecmp', 'sorted(words, cmp=libc.strcasecmp)'),
]

for (comment, stmt) in stmts:
    t = timeit.Timer(stmt=stmt, setup=setup)
    print '%s: %.2f msec/pass' % (comment, (1000*t.timeit(10)/10))

我机器上的典型时间：

235886 words in list
simple sort: 483.59 msec/pass
sort with key=str.lower: 1064.70 msec/pass
sort with cmp=libc.strcasecmp: 5487.86 msec/pass

因此，目前为止，str.lower的版本不仅是最快的，而且也是这里所有建议的解决方案中最可移植和最易懂的。我没有描述内存使用情况，但原始海报仍然没有给出令人信服的理由来担心它。另外，谁说对libc模块的调用不会复制任何字符串？

注意：lower()字符串方法还具有依赖于区域设置的优点。在编写自己的“优化”解决方案时，您可能会遇到一些问题。即便如此，由于Python中的错误和缺少的特性，这种比较可能会在unicode上下文中给出错误的结果。

网友

3楼 · 编辑于 2024-10-06 07:18:26

你的问题意味着你不需要Unicode。请尝试下面的代码片段；如果它对您有效，您就完成了：

Python 2.5.2 (r252:60911, Aug 22 2008, 02:34:17)
[GCC 4.3.1] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import locale
>>> locale.setlocale(locale.LC_COLLATE, "en_US")
'en_US'
>>> sorted("ABCabc", key=locale.strxfrm)
['a', 'A', 'b', 'B', 'c', 'C']
>>> sorted("ABCabc", cmp=locale.strcoll)
['a', 'A', 'b', 'B', 'c', 'C']

澄清：如果乍一看不明显，locale.strcoll似乎是您需要的函数，避免str.lower或locale.strxfm“重复”字符串。

相关问题更多 >

编程相关推荐

热门问题

热门文章