python的web挖掘模块。

pattern3的Python项目详细描述


模式图片::https://travis-ci.org/pattern3/pattern.svg?branch=master
:target:https://travis ci.org/pattern3/pattern

pattern是python的web挖掘模块。它有以下工具:

-数据挖掘:web服务(google、twitter、wikipedia)、web爬虫程序、
html dom解析器
-自然语言处理:部分语音标记、n-gram搜索、
情感分析、wordnet
-机器学习:向量空间模型、聚类、分类Action
(knn,SVM,Perceptron)
-网络分析:图形中心性和可视化。


它有很好的文档记录,捆绑了50多个示例和350多个单元测试。
源代码是根据BSD授权的,可从http://www.clips.ua.ac.be/pages/pattern获得。

图::http://www.clips.ua.ac.be/media/pattern戋schema.gif
:alt:模式示例工作流


pattern示例工作流
version
----


<2.6


license



**bsd**,有关详细信息,请参阅"license.txt"。



模式是为python 2.5+编写的(还不支持python 3)。
模块没有外部依赖项,除非在
pattern.vector模块中使用lsa,该模块需要numpy(默认安装在mac
os x上)。要安装pattern以使其在所有脚本中都可用,请解压缩下载并从命令行执行以下操作:

…代码::bash

cd pattern-2.6
python setup.py install


代码::bash

pip install pattern

ripts:\*``C:\ python26\lib\site packages`
(Windows)、\*``/library/python/2.6/site packages/``(Mac OS X)、\*
`/usr/lib/python2.6/site packages/``(Unix)。-将
模块的位置添加到脚本中的"sys.path"中,然后导入:

。代码::python

module='/users/tom/desktop/pattern'
import sys;如果module不在sys.path:sys.path.append(module)
from pattern.en import parsetree

example
----

包含标签"win"或"fail"的将被收集。例如:"今天给一位可爱的小老太太20美元的小费就赢了"。然后解析单词
词性标记的一部分,只保留形容词。每条tweet
都被转换成一个向量,一个形容词→计数项的字典,
标记为"win"或"fail"。分类器使用向量来学习
哪些tweet更像"win"或更像"fail"。

代码::python

from pattern.web import twitter
from pattern.en import tag
from pattern.vector import knn,count


twitter,knn=twitter(),knn()

for i in range(1,3):
for twitter中的tweet.search('win or fail',start=i,count=100):
s=tweet.text.lower()
p=''win'in s和'win'或'fail'
v=标记
v=[单词对单词,pos in v if pos='jj']\jj=形容词
v=计数(v){sweet':1}
if v:
knn.train(v,type=p)


print knn.classify('甘薯汉堡')
print knn.classify('愚蠢的自动更正')

python的模式。*机器学习研究杂志,13*,2031–2035。


贡献
----


源代码托管在Github AN上d欢迎捐款或捐赠,请参阅"开发者文档"http://www.clips.ua.ac.be/pages/pattern contribute>;`使用以下数据集、算法和python
包:

-**美丽汤**、leonard richardson
-**布里尔标签**、eric brill
-**布里尔标签**、jeroen geertzen
-**布里尔标签**、gerold schneider&;martin volk
-**布里尔标签f或西班牙语**,在维基语料库上接受培训(Samuel Reese&;br/>Gemma Boleda等人)
-**法语的Brill Tagger**,在Lefff上接受培训(Beno_t Sagot&Lionel
Clément等人)
-**意大利语的Brill Tagger**,从Wiktionary中开采的Brill Tagger
-**英语多元化**,Damian Conway
-**西班牙语动词词形变化**,fred jehle
-**法语动词词形变化**,bob salita
-**图形javascript框架**,aslak hellesoy&dave hoover
-**libsvm**,chih chung chang&chih jen lin
-**liblinear**,rong en fan et al.
-**网络中心性**,aric hagberg、dan schult&pieter swart、yusuke shinyama、python docx、mike maccana、pywordnet、oliver steele、simplejson、bob ippolito、peter norvig、universal feed parser、mark pilgrim、christiAne Fellbaum等人:


致谢
————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————丹尼尔·弗里斯n
-杰罗恩·格尔岑
-托马斯·克罗姆贝兹
-肯·威廉姆斯
-彼得里斯·艾琳斯
-拉杰什·奈尔
-f.德·斯密特
-拉迪姆·埃赫·埃克
-汤姆·洛雷多
-约翰·德博维斯
-托马斯·西莱奥
-格洛德·施奈德
-马丁·沃克
-塞缪尔·约瑟夫
-舒布汉舒·米什拉
-罗伯特·埃尔韦尔
-弗雷德·杰勒
-安托万·马齐耶雷斯+fabelier.org
-雷米·德佐滕+closealert.nl
-肯尼思·科赫
-詹斯·格里沃拉
-法比奥·马尔菲亚
-史蒂文·洛里亚
-科林·莫尔特+tevizz.com
-彼得·布尔
-莫里齐奥·桑巴蒂
-丹·富
-萨尔瓦特奥雷迪·迪奥

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
javascript通过WebSocket将服务器时间推送到多个客户端   这种java字节转换是如何工作的   数据库错误。sql。SQLEception:参数索引超出范围(1>参数数,为0)   java如何在搜索时过滤选定的viewpager片段中的recyclerview?   java如何使用OpenCV将图像转换为黑白图像并在ANDROID中消除阴影   Spring MVC项目中的java HTTP服务器状态404错误   Spring MVC中的java JSR303自定义约束验证器   java如何基于另一个ArrayList的值显示ArrayList中的特定项?   java如何在firebase messages节点获取最后发送给我的消息?   部署后在google app engine上运行servlet时发生java错误   java如何使用servlet在两个jsp之间发送数据   java日历年中的周是月中的周   从URL读取一个资源并直接返回这些字节作为REST请求的响应,Java 7和spring MVC 3.2不存储内存