用于管理多种语言中的停止字的python库。

mots-vides的Python项目详细描述


Build Status - develop branchCoverage of the code

用于管理39种语言中常用停止字的python库。

Usage

Simple

比长篇大论好,这里有一个直接的介绍:

>>> from mots_vides import stop_words

>>> english_stop_words = stop_words('en')
>>> text = """
... Even though using "lorem ipsum" often arouses curiosity
... due to its resemblance to classical Latin,
... it is not intended to have meaning.
... """

>>> print(english_stop_words.rebase(text))
XXXX XXXXXX XXXXX "lorem ipsum" XXXXX arouses curiosity
XXX XX XXX resemblance XX classical Latin,
XX XX XXX intended XX XXXX meaning.

>>> print(english_stop_words.rebase(text, '').split())
['"lorem', 'ipsum"', 'arouses', 'curiosity', 'resemblance',
'classical', 'Latin,', 'intended', 'meaning.']

Advanced

mots vides还提供了两个类来管理 语言。

StopWord,它是一个停止字集合的容器。 默认情况下是语言不可知的,但是可以很容易地操作来创建 收藏:

>>> from mots_vides import StopWord

>>> french_stop_words = StopWord('french', ['le', 'la', 'les'])
>>> french_stop_words += StopWord('french', ['un', 'une', 'des'])
>>> french_stop_words += ['or', 'ni', 'car']
>>> french_stop_words += 'assez'
>>> french_stop_words += u'aussitôt'
>>> print(sorted(french_stop_words))
['assez', u'aussitôt', 'car', 'des', 'la', 'le', 'les', 'ni', 'or', 'un', 'une']

StopWordFactory是用于初始化StopWord对象的工厂 语言和适当的停止词集合。

>>> from mots_vides import StopWordFactory

>>> factory = StopWordFactory()
>>> french_stop_words = factory.get_stop_words('french')
>>> print(len(french_stop_words))
577

您还可以使用国际语言代码查询收藏:

>>> french_stop_words = factory.get_stop_words('fr')
>>> print(len(french_stop_words))
577

如果所需语言不存在,则引发^ {TT4}$; 除非fail_safe参数设置为True

>>> klingon_stop_words = factory.get_stop_words('klingon')
StopWordError: Stop words are not available in "klingon".
>>> klingon_stop_words = factory.get_stop_words('klingon', fail_safe=True)
>>> print(len(klingon_stop_words))
0

Supported languages

  • 阿拉伯语
  • 亚美尼亚语
  • 巴斯克语
  • 孟加拉文
  • 保加利亚语
  • 加泰罗尼亚语
  • 中文
  • 捷克语
  • 丹麦语
  • 荷兰语
  • 英语
  • 芬兰语
  • 法语
  • 加利西亚语
  • 德语
  • 希腊语
  • 印地语
  • 匈牙利语
  • 印度尼西亚语
  • 爱尔兰语
  • 意大利语
  • 日语
  • 韩语
  • 拉脱维亚语
  • 立陶宛语
  • 马拉地语
  • 挪威语
  • 波斯语
  • 抛光
  • 葡萄牙语
  • 罗马尼亚语
  • 俄语
  • 斯洛伐克语
  • 西班牙语
  • 瑞典语
  • 泰语
  • 土耳其语
  • 乌克兰语
  • 乌尔都语

Compatibility

使用Python2.6、2.7、3.2、3.3、3.4进行测试。

Notes

mots vides在法语中是指stop words

灵感来自https://github.com/Alir3z4/python-stop-words

Changelog

2015.5.11

  • 修复python 3的缓存系统

2015.2.6

  • 修复工厂中的潜在问题。获取可用语言

2015.2.5

  • 固定包装
  • 添加rebar命令脚本

2015.2.4

  • 初始版本

2015.1.21.dev0

  • 开发版本

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
如何在java中模拟按键?   尽管元素存在,但HtmlUnit中的java ElementNotFoundException   在Java中,长双精度并发写入不是原子的吗?   java如何在另一个对象数组中打印对象的int值?   java在显示或更改视图后执行一些代码   java JFR:读取时发生OutOfMemoryError。jfr文件   java Android助手检查是否购买   java这种设计模式的好处是什么?   Weblogic 10.3中针对托管服务器的java部署问题   java如何获取字符串。在编译时投诉的格式   声明字符串数组时发生java错误   java JPA在多个并行线程中从表中删除时发生死锁   java Android:在按钮动画之后启动活动   java并发与JMS主题在春季   使用Lucene spatial search/DateRangePrefixTree进行java日期范围查询?   java可选接口问题   JavaDbUnit没有在每个方法之后清洗和插入数据库,所以测试不是独立的   java在IAIK PKCS11包装器中一对私钥和证书如何匹配?