typecraft xml格式在python中的轻量级实现。
typecraft_python的Python项目详细描述
typecraft python
此存储库包含基于typecraft igt格式的igt模型。它还包含一个简单的cli 执行各种nlp任务,与nltk和其他工具(如treetagger)交互。
- 自由软件:麻省理工学院许可证
- 完整文档:https://typecraft_python.readthedocs.io。
安装
pip install typecraft_python
功能
- typecraft xml格式的解析。
- 操作Typecraft IGT模型格式。
- 与NLTK集成
- 与treetagger集成
- 提供可用于加载、转换和操作原始文本和typecraft xml文件的cli。
使用量
Usage: tpy [OPTIONS] COMMAND [ARGS]...
Options:
--help Show this message and exit.
Commands:
convert
ntexts This command lists the number of texts in a...
raw
xml
示例
加载原始文件,对其进行标记和标记,并输出XML(到标准输出):
$ tpy raw your_file.txt
保存到文件
$ tpy raw your_file.txt -o output.xml # or $ tpy raw your_file.txt > output.xml
使用特定标记符标记:
$ tpy raw your_file.txt --tagger=tree # Tags using the tree tagger
加载typecraft xml文件并对其进行标记:
$ tpy xml your_file.xml --tag --tagger=nltk -o tagged_output.xml
学分
这个包是用Cookiecutter和audreyr/cookiecutter-pypackage项目模板创建的。
历史记录
0.1.1(2016-08-15)
- 修正了一些小错误。
0.1.0(2016-08-14)
- 首次发布。添加了大部分初始代码:
- Parser在其最基本的初始阶段工作,并将TC-XML文档解析到其对象树中