Cabocha输出-XML附件

xmlpumpkin的Python项目详细描述


解析CaboCha中的xmls并提供简单的树访问器。

用法

预期的用法集中在块表面和依赖链接上:

>>> aisansan = xmlpumpkin.parse_to_tree(
...     u'愛燦々とこの身に降って心密かなうれしい涙を流したりして'
... )
>>> len(aisansan.chunks)
8
>>> print(aisansan.root.surface)
流したりして
>>> print(aisansan.root.func_surface)
て
>>> for dep in aisansan.root.linked:
...     print(dep.surface)
...
降って
涙を

您需要在您的路径中使用cabocha,或者很快使用准备好的xml:

>>> tree = xmlpumpkin.Tree(xml_as_unicode)

是否需要从python到cabocha的简单界面:

>>> from xmlpumpkin import cabocha
>>> print(cabocha.txttree(
...     u'愛燦々とこの身に降って心密かなうれしい涙を流したりして'
... ))
    愛燦々と-----D
          この-D |
            身に-D
            降って-------D
            心密かな---D |
              うれしい-D |
                    涙を-D
              流したりして
EOS
>>> print(cabocha.as_xml(
...     u'愛燦々とこの身に降って心密かなうれしい涙を流したりして'
... ))
<sentence>
  ...
</sentence>

所有的I/O都是独角兽! 如果首选UTF-8以外的编码,请直接修改以下常量:

>>> import xmlpumpkin.runner
>>> xmlpumpkin.runner.CABOCHA_ENCODING = 'SJIS'
>>>
>>> import xmlpumpkin.tree
>>> xmlpumpkin.tree.XML_ENCODING = 'SJIS'

属性

还不够,但通过treechunk对象提供了一些属性。

类xmlpking.tree(cabocha_xml)
  • chunks-块的元组
  • 根-根(不依赖于任何块)块对象
  • chunk_by_id(chunk_id)-通过由cabocha生成的id获取chunk对象
  • 元素源xml作为lxml元素对象
类xmlpimpking.chunk(元素,父元素)
  • id-块id
  • link_to_id-取决于块id
  • linked_from_id-块id的元组,取决于此块
  • func_id-此块的功能标记id
  • dep-它的依赖块对象
  • 链接-根据此块列出所有块对象的列表
  • surface-此块的表面
  • func_surface-此块的函数标记的表面
  • tokens()-它包含作为lxml元素对象的标记

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何拆分字符串(基于各种分隔符),但不保留空格?   解析。Json格式的txt文件和knime中的java   java Spring rest api为什么在rest api调用的响应中更改了数据类型   升华文本3抛出java。lang.ClassNotFoundException,而记事本++不存在   java Android指纹扫描仪在尝试5次后停止工作?   java Android如何设置精确的重复报警?   java如何使用HTTPGET connect为access API输入用户名和密码   java当测试报告显示没有测试失败时,Gradle为什么说“有失败的测试”?   用Gson实现java获取响应   MapReduce程序中函数错误的java不可映射参数   java spring安全性不符合自动代理的条件   java GWT使用异步回调进行同步/阻塞调用   java奇怪的类数组问题无法在jsp中显示   如何在java中使用PrinterJob使用epl打印条形码   java如何在JTable中居中单元格   将Java Mockito测试转换为Kotlin   html Java正则表达式模式匹配到多个相同标记   testCompile中缺少java Gradle(Android)多项目依赖项   在输入提示后输入字符串时发生java FileNotFoundException