Cabocha输出-XML附件
xmlpumpkin的Python项目详细描述
解析CaboCha中的xmls并提供简单的树访问器。
用法
预期的用法集中在块表面和依赖链接上:
>>> aisansan = xmlpumpkin.parse_to_tree( ... u'愛燦々とこの身に降って心密かなうれしい涙を流したりして' ... ) >>> len(aisansan.chunks) 8 >>> print(aisansan.root.surface) 流したりして >>> print(aisansan.root.func_surface) て >>> for dep in aisansan.root.linked: ... print(dep.surface) ... 降って 涙を
您需要在您的路径中使用cabocha,或者很快使用准备好的xml:
>>> tree = xmlpumpkin.Tree(xml_as_unicode)
是否需要从python到cabocha的简单界面:
>>> from xmlpumpkin import cabocha >>> print(cabocha.txttree( ... u'愛燦々とこの身に降って心密かなうれしい涙を流したりして' ... )) 愛燦々と-----D この-D | 身に-D 降って-------D 心密かな---D | うれしい-D | 涙を-D 流したりして EOS >>> print(cabocha.as_xml( ... u'愛燦々とこの身に降って心密かなうれしい涙を流したりして' ... )) <sentence> ... </sentence>
所有的I/O都是独角兽! 如果首选UTF-8以外的编码,请直接修改以下常量:
>>> import xmlpumpkin.runner >>> xmlpumpkin.runner.CABOCHA_ENCODING = 'SJIS' >>> >>> import xmlpumpkin.tree >>> xmlpumpkin.tree.XML_ENCODING = 'SJIS'
属性
还不够,但通过tree和chunk对象提供了一些属性。
- 类xmlpking.tree(cabocha_xml)
- chunks-块的元组
- 根-根(不依赖于任何块)块对象
- chunk_by_id(chunk_id)-通过由cabocha生成的id获取chunk对象
- 元素源xml作为lxml元素对象
- 类xmlpimpking.chunk(元素,父元素)
- id-块id
- link_to_id-取决于块id
- linked_from_id-块id的元组,取决于此块
- func_id-此块的功能标记id
- dep-它的依赖块对象
- 链接-根据此块列出所有块对象的列表
- surface-此块的表面
- func_surface-此块的函数标记的表面
- tokens()-它包含作为lxml元素对象的标记