nlcodec是自然语言序列的编码方案集合

nlcodec的Python项目详细描述


NL编解码器

注意:这些文档可以在https://isi-nlp.github.io/nlcodec上找到

一组(低级)自然语言编解码器(编解码器),在预处理阶段有用 NLP管道。这些编码序列之一包括:

  1. 性格
  2. 基于BPE的子词

它提供python(因此嵌入到应用程序中)和cliapi(将其用作独立工具)。在

已经有许多BPE实现可用,但这一个提供了不同的:

  1. 纯python实现,很容易修改任何东西来尝试新的想法。 (其他实现需要c++专业知识来修改内核)
  2. BPE模型是一个简单的文本,可以用lesscut检查。它包括什么样的信息和频率
  3. 比其他纯python实现快得多——python的速度伴随着索引所带来的额外内存成本。在
  4. PySpark后端用于从大型数据集中提取术语频率

安装

请只运行其中一个

# Clone repo for development mode (preferred  mode)
git clone https://github.com/isi-nlp/nlcodec
cd nlcodec
pip install --editable . 

# Install from github, directly
$ pip install git+https://github.com/isi-nlp/nlcodec.git


# Install from pypi
$ pip install nlcodec

pip安装程序在路径中注册名为nlcodec的cli工具 它的作用是命令行界面。 您可以通过python -m nlcodecpython path/to/nlcodec/__main__.py如果你愿意的话!在

文件可在

作者

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java 401在API URL上带有声明性Http客户端,并带有@Secured(SecurityRule.IS_ANONYMOUS)注释   java如何在Android中创建计时器?   Java8WebStart安全弹出窗口   java会通过以下两种方式导致堆空间耗尽吗?   java项目调度GA:染色体的高效数据结构   java Apache POI:如何在Excel文件中插入列   java在JRE系统库中每个jar扮演什么角色   java如何在抽象类中执行@mock(不是注入mock)   java如何使用opensearch和Lucene发送搜索查询?   java在ApachePOI中处理空列   java广播接收器未接收到目标   java错误ELF类:ELF类64(可能原因:体系结构字宽不匹配)   java调用Web服务(SSL)时出错   用于iot集线器设备固件更新的java Rest API   通过xslt将xml转换为文本文件时引发java异常   Java linux打印问题   Java XML转换器重复行   java从另一个类的方法将数组导入mainActivity类   多线程选择与Java交互的线程   我想在java程序中打印以下格式的文件: