获取有关字符和文本的详细unicode信息
unilyze的Python项目详细描述
Unilyze:获取详细的unicode信息
独角兽类
此模块帮助您获取有关单个字符的非常详细的unicode信息。 它使用简单,并显示来自unicode.org网站以一种非常容易阅读和使用的方式。在
首先,我们导入Unilyze
库:
>> from unilyze import Unichar
>> from pprint import pprint
现在我们可以创建一个Unichar实例并使用它:
^{pr2}$这将对角色的属性做出一个巨大的判断。SeeFULL OUTPUT
每个角色都有超过100个属性!
您还可以获得如下原始数据:
raw_info = uc.ucd_info_short("J")
您还可以找到使用unicode字符的语言:
>> info = uc.lng_usage("Ã¥")
>> pprint(info)
{'main': ['Danish',
'Finnish',
'Javanese',
'Kalaallisut',...
}
在这里,你将得到一个关于国家的重要信息。SeeFULL OUTPUT
Unistat类
此类用于获取字符串的统计信息,而不是单个字符。它是用来求和运算的 字符串中每个字符的信息。在
>> from unilyze.unistat import Unistat
>> from pprint import pprint
>> us = Unistat()
>> us.add_text("This is a small test! 123")
>> unistat = us.unistat()
>> pprint(unistat, compact=True)
{'ASCII_Hex_Digit': {True: {'chars': {'1', '3', 'a', '2', 'e'},
'total-count': 6}},
'Age': {'V1_1': {'chars': {' ', '!', '1', '2', '3', 'T', 'a', 'e', 'h', 'i',
'l', 'm', 's', 't'},
'total-count': 25}},.........
同样,我们得到了一个按UCD属性分组的巨大输出,以及一个字符计数。 SeeFULL OUTPUT
每个字符的简单计数可以这样进行:
>> charstat = us.charstat()
>> print(charstat)
{'T': 1, 'h': 1, 'i': 2, 's': 4, ' ': 5, 'a': 2, 'm': 1, 'l': 2, 't': 2, 'e': 1, '!': 1, '1': 1, '2': 1, '3': 1}
最后说明
要获得完整的用法,请查看examples文件夹。在
所有数据都基于来自www.unicode.org的Unicode版本13定义文件 您应该只创建Unichar或Unistat的一个实例,因为它会将60Mb的数据加载到内存中。 它不仅占用大量内存,还需要一些时间(一秒钟左右)
玩得开心
/亚历克斯·斯科夫·詹森
- 项目
标签: