文言文的标记器pos标记和依存分析器
udkanbun的Python项目详细描述
UD堪布
文言文的标记器、词性标记器和依存分析器,致力于Universal Dependencies。
基本用法
>>>importudkanbun>>>lzh=udkanbun.load()>>>s=lzh("不入虎穴不得虎子")>>>print(s)# text = 不入虎穴不得虎子1不不ADVv,副詞,否定,無界Polarity=Neg2advmod_Gloss=not|SpaceAfter=No2入入VERBv,動詞,行為,移動_0root_Gloss=enter|SpaceAfter=No3虎虎NOUNn,名詞,主体,動物_4nmod_Gloss=tiger|SpaceAfter=No4穴穴NOUNn,名詞,固定物,地形Case=Loc2obj_Gloss=cave|SpaceAfter=No5不不ADVv,副詞,否定,無界Polarity=Neg6advmod_Gloss=not|SpaceAfter=No6得得VERBv,動詞,行為,得失_2parataxis_Gloss=get|SpaceAfter=No7虎虎NOUNn,名詞,主体,動物_8nmod_Gloss=tiger|SpaceAfter=No8子子NOUNn,名詞,人,関係_6obj_Gloss=child|SpaceAfter=No>>>t=s[1]>>>print(t.id,t.form,t.lemma,t.upos,t.xpos,t.feats,t.head.id,t.deprel,t.deps,t.misc)1不不ADVv,副詞,否定,無界Polarity=Neg2advmod_Gloss=not|SpaceAfter=No
udkanbun.load()
只有一个选项udkanbun.load(MeCab=False)
。默认情况下,ud kanbun管道使用MeCab作为标记器和pos标记器,然后使用UDPipe作为依赖性解析器。使用选项MeCab=False
,管道在整个处理过程中使用udpipe。
安装
binary wheel可用于linux,并且在使用pip
:
pip install udkanbun
作者
小泉纯一郎(koichi yasuoka)
参考文献
- 安岡孝一: 四書を学んだMeCab+UDPipeはセンター試験の漢文を読めるのか, 東洋学へのコンピュータ利用, 第30回研究セミナー (2019年3月8日), pp.3-110.