NLP,痉挛前后
textac的Python项目详细描述
文本性:NLP,间隔前后
textacy是一个python库,用于执行各种自然语言 处理(nlp)任务,构建在高性能spacy库上。与 基本原理——标记化、词性标注、依赖性分析等。--- 委托给另一个图书馆,textacy主要关注任务 先来后去。
功能
- 使用Spacy处理的一个或多个文档的便捷入口点,并通过自定义扩展添加功能
- 各种可下载的数据集,包括文本内容和元数据,从国会演讲到历史文献再到reddit评论
- 方便的文件I/O,用于将数据流式传输到磁盘或从磁盘流式传输数据
- 原始文本的清理、规范化和探索-处理前
- 文档的标记化和矢量化,具有培训、解释和可视化主题模型的功能
- 通过各种度量进行字符串、集合和文档相似性比较
- 通用文本统计的计算,包括Flesch Kincaid等级和多语言Flesch阅读简易性
…及更多!
链接
- PYPI项目:https://pypi.org/project/textacy
- 源代码:https://github.com/chartbeat-labs/textacy
- 文档:https://chartbeat-labs.github.io/textacy
维修人员
你们好。
- 伯顿·德维尔德(burton@chartbeat.com)