为各种类型生成有偏见的停止词列表
biased-stop-words的Python项目详细描述
========
python偏向的停止字
=======
图片::https://badge.fury.io/py/biaded stop words.svg
:目标:https://badge.fury.io/py/biaded stop words
…图片::http://img.shields.io/badge/license-mit-yellow.svg?style=flat
:目标:https://github.com/gregology/biaded stop words/blob/master/license
…图片::https://img.shields.io/badge/contact-gregology-blue.svg?style=flat
:目标:http://gregology.net/contact/
…内容:
概述
——
*偏见是错误*
停止词是在处理自然语言数据之前过滤掉的词。通常在文本分析中存在非偶然的关联,考虑以下文档:
-他是宇航员,他在金星上
-他是会计,他在地球上
-她是宇航员,她在火星上
将这些文档处理为两个主题将导致性别聚类。如果去掉性别术语:
-是宇航员,在金星上
-是会计,在地球上
-是宇航员,在火星上
处理将导致工作聚集。这两个结论都是有效的,但是如果你对雇佣宇航员感兴趣,你就不希望男性会计师出现。自然语言中还有许多非偶然关系的例子;宗教、种族和年龄,但只有少数几个。
可用的类型
----
*性别术语
*美国名称
*宗教术语(部分)
在https://github.com/gregology/diagested words
interactive notebook
———————————————————————————————————————————————————————————————————————————————————————————————————————图片::https://user images.githubusercontent.com/1595448/48975588-00661d00-f042-11e8-97c6-ded19ad45f51.png
:宽度:80%
`_
安装
----
pypi上提供“有偏的停止字”http://pypi.python.org/pypi/有偏的停止字
``偏置停止字``s`git repo<;https://github.com/gregology/biaded words>;`
::
$git clone--recursive git://github.com/gregology/biaded stop words.git
$cd偏置停止字
$python setup.py install
--从偏颇的“stop”单词导入流派,获取“stop”单词
>;>genres()
“宗教、性别、美国通用名称、美国男性名称、美国女性名称、性别名词”
>;
获取“stop”单词(“性别”、“美国通用名称”)
[u“trenton”、u“augustine”、u“khail”、u“aiden”、u“elisabeth”、u“andre”、u“khanum”,u'elva,u'fran…
running test
----
::
$python-diages_-stop_-words/tests.py
python-compatibility
----
>为python 2&3开发。
python偏向的停止字
=======
图片::https://badge.fury.io/py/biaded stop words.svg
:目标:https://badge.fury.io/py/biaded stop words
…图片::http://img.shields.io/badge/license-mit-yellow.svg?style=flat
:目标:https://github.com/gregology/biaded stop words/blob/master/license
…图片::https://img.shields.io/badge/contact-gregology-blue.svg?style=flat
:目标:http://gregology.net/contact/
…内容:
概述
——
*偏见是错误*
停止词是在处理自然语言数据之前过滤掉的词。通常在文本分析中存在非偶然的关联,考虑以下文档:
-他是宇航员,他在金星上
-他是会计,他在地球上
-她是宇航员,她在火星上
将这些文档处理为两个主题将导致性别聚类。如果去掉性别术语:
-是宇航员,在金星上
-是会计,在地球上
-是宇航员,在火星上
处理将导致工作聚集。这两个结论都是有效的,但是如果你对雇佣宇航员感兴趣,你就不希望男性会计师出现。自然语言中还有许多非偶然关系的例子;宗教、种族和年龄,但只有少数几个。
可用的类型
----
*性别术语
*美国名称
*宗教术语(部分)
在https://github.com/gregology/diagested words
interactive notebook
———————————————————————————————————————————————————————————————————————————————————————————————————————图片::https://user images.githubusercontent.com/1595448/48975588-00661d00-f042-11e8-97c6-ded19ad45f51.png
:宽度:80%
`_
安装
----
pypi上提供“有偏的停止字”http://pypi.python.org/pypi/有偏的停止字
``偏置停止字``s`git repo<;https://github.com/gregology/biaded words>;`
::
$git clone--recursive git://github.com/gregology/biaded stop words.git
$cd偏置停止字
$python setup.py install
--从偏颇的“stop”单词导入流派,获取“stop”单词
>;>genres()
“宗教、性别、美国通用名称、美国男性名称、美国女性名称、性别名词”
>;
获取“stop”单词(“性别”、“美国通用名称”)
[u“trenton”、u“augustine”、u“khail”、u“aiden”、u“elisabeth”、u“andre”、u“khanum”,u'elva,u'fran…
running test
----
::
$python-diages_-stop_-words/tests.py
python-compatibility
----
>为python 2&3开发。