获取有关字符和文本的详细unicode信息

unilyze的Python项目详细描述


Unilyze:获取详细的unicode信息

独角兽类

此模块帮助您获取有关单个字符的非常详细的unicode信息。 它使用简单,并显示来自unicode.org网站以一种非常容易阅读和使用的方式。在

首先,我们导入Unilyze库:

>> from unilyze import Unichar
>> from pprint import pprint

现在我们可以创建一个Unichar实例并使用它:

^{pr2}$

这将对角色的属性做出一个巨大的判断。SeeFULL OUTPUT 每个角色都有超过100个属性!
您还可以获得如下原始数据:

raw_info = uc.ucd_info_short("J")

您还可以找到使用unicode字符的语言:

>> info = uc.lng_usage("Ã¥")
>> pprint(info)

{'main': ['Danish',
          'Finnish',
          'Javanese',
          'Kalaallisut',...
}

在这里,你将得到一个关于国家的重要信息。SeeFULL OUTPUT

Unistat类

此类用于获取字符串的统计信息,而不是单个字符。它是用来求和运算的 字符串中每个字符的信息。在

>> from unilyze.unistat import Unistat
>> from pprint import pprint

>> us = Unistat()
>> us.add_text("This is a small test! 123")

>> unistat = us.unistat()
>> pprint(unistat, compact=True)

{'ASCII_Hex_Digit': {True: {'chars': {'1', '3', 'a', '2', 'e'},
                            'total-count': 6}},
 'Age': {'V1_1': {'chars': {' ', '!', '1', '2', '3', 'T', 'a', 'e', 'h', 'i',   
                            'l', 'm', 's', 't'},
                  'total-count': 25}},.........

同样,我们得到了一个按UCD属性分组的巨大输出,以及一个字符计数。 SeeFULL OUTPUT

每个字符的简单计数可以这样进行:

>> charstat = us.charstat()
>> print(charstat)

{'T': 1, 'h': 1, 'i': 2, 's': 4, ' ': 5, 'a': 2, 'm': 1, 'l': 2, 't': 2, 'e': 1, '!': 1, '1': 1, '2': 1, '3': 1}

最后说明

要获得完整的用法,请查看examples文件夹。在

所有数据都基于来自www.unicode.org的Unicode版本13定义文件 您应该只创建Unichar或Unistat的一个实例,因为它会将60Mb的数据加载到内存中。 它不仅占用大量内存,还需要一些时间(一秒钟左右)

玩得开心

/亚历克斯·斯科夫·詹森

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
未处理java Google PubSub-resent消息   java CannotAcquireLockException+LockAcquisitionException   atlassian fisheye如何处理“C:\Program Files\Java\jre7\bin\server\JVM.dll”中缺少“服务器”JVM的问题   jboss 6.3 eap linux环境中ear部署中的java问题   java SQL顺序字符串主键   java ascii shift程序几乎适用于整个字符串   java中excel工作表中的一条记录插入多条记录所需的sql逻辑   java这个方法如何计算Rational(1)。hashCode()?1的分子或分母本身就是1   java为什么在循环中的数组中分配引用后会出现NullPointerException?   java Seam 2中内置工厂的优势是什么   远程运行Java项目的eclipse   标记化Java中的标记化源代码   java从大文件中读取前缀后的值   java使用EntityManager调用PostgreSQL过程   java阅读行每隔一行跳过一行