用于使用texttaglib(ttl)格式管理和注释文本语料库的python库

texttaglib的Python项目详细描述


用于使用texttaglib(ttl)格式管理和注释文本语料库的python库

安装

texttaglib在pypi上可用。

pip install texttaglib
# or more explicit
python3 -m pip install texttaglib

基本用法

>>>fromtexttaglibimportttl>>>doc=ttl.Document('mydoc')>>>sent=doc.new_sent("I am a sentence.")>>>sent#1: I am a sentence.>>>sent.ID1>>>sent.text'I am a sentence.'>>>sent.import_tokens(["I","am","a","sentence","."])>>>>>>sent.tokens[`I`<0:1>,`am`<2:4>,`a`<5:6>,`sentence`<7:15>,`.`<15:16>]>>>doc.write_ttl()

上面的脚本将生成这个语料库

-rw-rw-r--.  1 tuananh tuananh       0  3月 29 13:10 mydoc_concepts.txt
-rw-rw-r--.  1 tuananh tuananh       0  3月 29 13:10 mydoc_links.txt
-rw-rw-r--.  1 tuananh tuananh      20  3月 29 13:10 mydoc_sents.txt
-rw-rw-r--.  1 tuananh tuananh       0  3月 29 13:10 mydoc_tags.txt
-rw-rw-r--.  1 tuananh tuananh      58  3月 29 13:10 mydoc_tokens.txt

sqlite支持

ttl数据可以存储在sqlite数据库中,以便更好地进行语料库分析。 示例代码将很快添加。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java附加两个数组   java如何在Extjs的不同页面中使用相同的存储   java Jung,大顶点的布局重叠,图形出现在奇怪的位置   java如何在Android中通过画布绘制圆?   java验证库设计模式选择   java研磨机未知标记“timedTests”   java Android领域子类实例方法   java使用resteasy/jaxrs从请求负载接收两种类型的数据   缓冲策略Java缓冲策略有时不能正确绘制   java跟踪棋子   密度无关像素如何在java中锐化图像缩略图?   java如何在MongoDB更新查询中编写(或)更新   java A*寻路游戏系统退出问题   java在安卓中读取xml的最佳方式是什么?   通过反射调用的方法的java抑制警告   安卓 java。语言错误:信号11(SIGSEGV),代码10(?),故障地址006e006f   java lombok 1.18.2使用DexBuilderForDebug抛出TransformClasses   java JOptionPane CD对话框按钮?   java只返回json中的一些值,而不是完整实体对象   java包不存在错误,请稍后重试