捷克语文本排序功能
czech-sort的Python项目详细描述
这是一个用于捷克语albhabetical排序的纯python库。
快速使用
来自python:
>>> import czech_sort >>> czech_sort.sorted(['sídliště', 'shoda', 'schody']) ['shoda', 'schody', 'sídliště'] >>> sorted(['sídliště', 'shoda', 'schody'], key=czech_sort.key) ['shoda', 'schody', 'sídliště']
在命令行中:
$ python -m czech_sort < file.txt shoda schody sídliště
为什么还要另一个分类库?
要用捷克语对python字符串进行排序,还有三个选项:
- 使用PyICU。这可以对进行排序,而且做得非常好, 符合Unicode标准的东西。完美的出版质量结果。 不幸的是,icu是一个很难安装的地方,如果你 只想对字符串列表排序。
- 设置区域设置,然后使用locale.strxfrm。 (是的,strxfrm!试着说十遍!) 这取决于可用的捷克posix语言环境,因此很难 便携式。
- 只需使用python内置的字符串排序。这是词典编纂的。 Unicode码位。对你来说可能够好了吧?也许吧?
范围
czech-sort库是一个折衷方案。它应该会给你很好的效果 99%的案子。
如果需要对符号、非拉丁语脚本进行正确排序,请不要使用此选项, 或捷克语/斯洛伐克语以外的变音符号。
与相关标准的任何其他偏差,应为 被认为是虫子。然而,无论是作者还是整个社会 有权访问标准,这使得查找此类错误有些困难。
完整的API
捷克语sort.sorted(iterable)
Takes an iterable of strings, and returns a list of them, sorted.
捷克语排序键
Returns a sort key object for a given string.
This function is suitable as the ^{tt3}$ for functions like the built-in ^{tt4}$ or ^{tt5}$.
兼容性
捷克排序库可以与Python2.6+和3.3+一起使用。
在python 2下,它只接受unicode字符串。
安装
运行:
pip install czech-sort
贡献
欢迎在Github上提交错误报告和评论。
也欢迎修补程序!源代码托管在github:
$ git clone http://github.com/encukou/czech-sort
要运行包含的测试:
$ pip install pytest $ python -m pytest
如果你想做贡献,但是被上面所说的搞糊涂了, 然后请发电子邮件给encukouatgmaildotcom。
许可证
这个项目是根据麻省理工学院的许可证授权的。愿它为你服务。