文本字符串的预处理包

preprocessing的Python项目详细描述


Spotlight Data Logo

“预处理”

Documentation Status

小结

文本预处理包,以帮助开发Python3的nlp包。带着这个包裹你 可以按您喜欢的顺序而不是依赖于 任意NLP包。

安装

管道:

pip install preprocessing

pypi-您还可以从以下位置下载源发行版:

https://pypi.python.org/pypi/preprocessing/

然后您可以执行:

pip install <path_to_tar_file>

在tar文件上,或者

python setup.py install

在/内部,分别是要安装preprocessing的提取包。

示例

一旦安装了包,使用python3实现它的形式如下:

importpreprocessing.textasptextfrompreprocessing.textimportkeyword_tokenize,remove_unbound_punct,remove_urlstext_string="important string at: http://example.com"clean_string=ptext.preprocess_text(text_string,[remove_urls,remove_unbound_punct,keyword_tokenize])
>>> print(clean_string)
"important string"

是否应按不同的顺序执行功能(即关键字标记->;删除URL->; 移除未绑定的穿孔:

>>> print(clean_string)
"important string http example.com"

组织

这个包由一个模块组成,目前没有预定的子包。这个 预处理包依赖于用于标记器和stopwords的nltk。然而,忽略这一点, 该包仅具有来自Python 3的内置依赖项

贡献

如果您想贡献:

  • Check for open issues或打开新问题
  • 分叉预处理存储库以开始进行更改
  • 编写一个测试,显示错误已被修复或功能按预期工作
  • 发送拉取请求并记住将自己添加到CONTRIBUTORS.md

许可证

这个项目是根据麻省理工学院的许可证授权的(参见LICENSE

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java我可以扩展一个@Component并创建另一个@Component类,一次只能使用一个吗?   dice Java:使用静态方法在Main之外的方法中调用对象   Java中的泛型类型推理(#la C#)   java如何使用进程和PID过滤正确捕获logcat?   java Hibernate:无法获取检索到的关联列表   java Set滑动面板布局水平滚动已禁用   java中128位上的ipv6按位操作   java图形二叉搜索树节点间距   JavaSpring数据,MySQL,连接在8小时不活动后终止   java如何更改Android上必需的Facebook权限字段   java如何从未映射类返回hibernate中受影响的行数   java播放Http。上下文实现   SplashScreen中的java 安卓异常   java Android为什么在onCreate中显示文本   使用JavaPlot的java Spectrogram不起作用   java将SecurityContextToken设置为SOAP头