杰森杨的工具。

young-tools的Python项目详细描述


年轻工具

这个软件包包含几个有用的工具,其中一些工具处理自然语言处理中的问题。

安装

  1. 通过PIP
pip install young-tools
  1. 克隆到本地
git clone https://github.com/Jason-Young-NLP/YoungTools.git
cd YoungTools
python setup.py build develop

主框架

  • 底座模块
  • 可执行模块

可执行模式

通过运行commandyoung tools-{module\u name}

到目前为止,Young Tools提供了三种可执行模式:

  • 青年工具语料库
  • 年轻工具Levenshtein
  • 年轻工具XML

编译器

语料库

它是一个语料库编译器,可以通过运行young tools corpus来执行。该命令仅接收包含您设置的所有参数的1个参数-p--configuration path。配置文件是用一种基本配置语言编写的,它提供了一种类似于Microsoft Windows ini文件的结构。

您必须提供main部分,您应该在其中配置:

  • 管道
  • 语料库目录
  • 语料库名称
  • 语言
  • 编码

每次运行之前,young tools corpus将读取配置路径并解析main部分。young tools corpus可以一次处理多个设置不同的语料库。在main部分中,不同语料库的配置由分隔符分隔。

pipeline表示子语料库编译模块的运行顺序。不同模块的每个名称都由分隔符分隔。如果某个模块的另一个实例具有不同的配置,只需定义一个新的节,该节的名称将附加后缀{index}likemoduel\u name\u 10。module_name必须是子语料库编译器模块的名称之一。

corpus目录指定原始和编译的语料库的位置。

在每个语料库目录中,可能包含多个语料库(语料库名称),并且每个语料库可能有多个语言(语言),其编译的文件编码可以由编码来定义

young tools corpus有5个子语料库编译模块:

  1. 清洁剂

    它可以删除dumplicate行(remove\u dumplicate行)并将语料库小写(小写)。 粒度可以设置为句子文档。当粒度文档时,表示文档中每个文档的起点的文档索引是写文档名称+文档索引后缀

  2. 规格化器

    规范化语料库的标点。

  3. 分段器

    使用thulac对中文句子进行分段。如果您需要词性标记,请将词性标记的part_设置为true。传统的简化版在某些情况下可能有用。

  4. 标记器

    标记不同语言的句子,您可能需要将split\u aggressive\u连字符设置为true,将连字符-char转换为@-@

  5. 子词

    这是SIM卡多个封装子词nmtlearn_file_indexapply_file_index指示应在语料库名称中学习/应用的语料库的索引,而子词索引指示应由bpe执行的语料库的语言。symbols\u number是合并操作的编号,联合学习是在语料库名称的学习文件索引的子词索引之间是否联合学习bpe

normalizertokenizer是mosesdecoder的脚本的重新实现

左旋施泰因

它通过计算levenshtein距离,生成语料库假设和参考文献之间的操作序列,并通过得到对齐假设和参考文献的规则,合成参考文献的假设。这些函数可以通过运行young tools corpusgen seqs的子命令来执行

XML

young tools xml可以将xml文件转换为普通文件,也可以通过分别将子命令指定为xml2plainscape来转义/deescape文件。

指标

待完成。

底座模型

只需导入底座即可使用

import young_tools.pedestal as pedestal

基座包中每个模块的用法如下所述:

计时器

计时器记录系统/进程经过的时间。

常数

常量是一种类,它存储无限个常量。

实例检查器

InstanceChecker是一个基本的decorator,它可以检查传递给方法的参数是否合法。

ansiformatter

Ansiformatter控制ANSI颜色字符串。一个使用这个类来格式化终端输出字符串。

记录器

记录器记录进程的日志并将其发送到日志文件或终端。

参数

参数是argparser的简单封装。

配置程序

configurator是configparser的简单封装,但configurator区分大小写

独角兽手

unicodehandler有几种方法可以处理unicode字符串并检测编码类型。

重定向流

简单的类可以将stdout/stderr流重定向到文件。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何使用JPA从1自动生成id?   java JSONException:CourseVide没有值   在Java中使用身份和访问管理   java观察者设计如何访问方法。调用范围?   试图从Java源代码调用JavaScript函数   java How to Fix无法解析Android中的方法“setContentView”   java如何从非结构化日志文件中提取json字符串?   将java布尔结果转换为字符串值   java无法调试servlet Eclipse+Glassfish   java是检查布尔值数组是否包含true的最快方法   java JFrame不会显示在ubuntu上   面向Web应用的javascript图像编辑   使用Hadoop自定义数据类型biginsghts时出现java EOF异常   选择尽可能多的非重叠段时超出了java时间限制   从Firebase获取数据列表并在不同活动/片段中共享的java最佳实践   使用SimpleCursorAdapter时出现java空指针异常   java以升序将元素插入到多链接列表中   支持TDD的java Eclipse插件   客户端无法从Java代码向服务器发送命令