Python creme包_程序模块 - PyPI

python中的增量机器学习

creme的Python项目详细描述

< div >

< BR>

creme是用于在线机器学习的库，也称为cremental learning。在线学习是一种机器学习机制，模型一次只学习一个观察结果。这与一次处理所有数据的批量学习形成对比。当数据太大而无法放入内存时，或者当您希望以流式方式处理数据时，增量学习是可取的。除了许多在线机器学习算法之外，creme还提供了从数据流中提取特征的实用程序。该api的灵感来自于scikit-learn，这意味着熟悉它的用户应该感到舒适。

有用链接

安装

：point_up:creme用于Python3.6及更高版本。

creme只需使用pip安装即可。

pip install creme

您还可以安装最新的开发版本，如下所示：

pip install git+https://github.com/creme-ml/creme --upgrade

至于依赖项，creme主要依赖于python的标准库。有时它依靠numpy，scipy和scikit learn来避免重新发明轮子。

快速示例

在下面的示例中，我们将使用线性回归来预测图卢兹市自行车站中可用自行车的数量。

我们将使用可用的数值特性，并计算目标的运行平均值。在输入到线性回归之前，将使用StandardScaler缩放功能。注意，这些步骤中的每一个都以流方式工作，包括特征提取。我们将通过要求它提前30分钟预测并延迟真实答案来评估该模型，从而确保我们正在模拟生产场景。最后，我们将每隔20000次预测打印当前分数。

>>>importdatetimeasdt>>>fromcremeimportcompose>>>fromcremeimportdatasets>>>fromcremeimportfeature_extraction>>>fromcremeimportlinear_model>>>fromcremeimportmetrics>>>fromcremeimportmodel_selection>>>fromcremeimportpreprocessing>>>fromcremeimportstats>>>X_y=datasets.fetch_bikes()>>>defadd_hour(x):...x['hour']=x['moment'].hour...returnx>>>model=compose.Whitelister('clouds','humidity','pressure','temperature','wind')>>>model+=(...add_hour|...feature_extraction.TargetAgg(by=['station','hour'],how=stats.Mean())...)>>>model+=feature_extraction.TargetAgg(by='station',how=stats.EWMean(0.5))>>>model|=preprocessing.StandardScaler()>>>model|=linear_model.LinearRegression()>>>model_selection.online_qa_score(...X_y=X_y,...model=model,...metric=metrics.MAE(),...on='moment',...lag=dt.timedelta(minutes=30),...print_every=20_000...)[20,000]MAE:13.743465[40,000]MAE:7.990616[60,000]MAE:6.101015[80,000]MAE:5.159895[100,000]MAE:4.593369[120,000]MAE:4.19251[140,000]MAE:3.904753[160,000]MAE:3.725466[180,000]MAE:3.568893MAE:3.555296

我们还可以绘制模型来了解数据是如何流动的。

>>>dot=model.draw()

< div >

通过只使用几行代码，我们构建了一个健壮的模型，并通过模拟生产场景对其进行了评估。您可以在这里找到本示例的更详细版本。creme是一个有很多可供选择的框架，因此，如果您想了解更多信息，请参阅文档。

与其他解决方案的比较

scikit learnscikit learn：一些it估计器有一个部分拟合的方法，允许他们用新的方法更新自己观察。然而，在线学习并没有被视为一等公民，这会让事情变得尴尬。如果您的数据适合内存，那么您绝对应该使用scikit learn，而且每次有新数据可用时，您都可以从头开始重新培训您的模型。
vowpal-wabbit：大众可能是最快的核心学习系统。它的核心是用许多技巧实现一种最先进的自适应梯度下降算法。它也有一些机制来执行主动学习和使用强盗。然而，它不是一个"真正的"在线学习系统，因为它假设数据在一个文件中可用，并且可以循环多次。此外，对于新来的用户来说，grok也有些困难。
libol：这是一个很好的图书馆，由学者编写，有一些很棒的文档。它是用c++编写的，而且速度似乎很快。然而，它只关注在线学习的学习方面，而不关注其他平凡但有用的任务，如特征提取和预处理。而且，它已经有几年没有更新了。
Spark流媒体：这是apache spark，它适合大数据从业者。它以小批量处理数据，而不是实际执行流操作。它还与实现在线学习算法的mllib兼容。例如流式线性回归和流式k-means。然而，这是一个有点压倒性的解决方案，对于某些用例来说可能有点过分了。
tensorflow：深度学习系统在某种意义上是在线学习系统，因为它们使用在线梯度下降。然而，流行的库大多与批处理环境相适应。因为像keras和pytorch这样的框架，在creme中实现神经网络是没有实际意义的。此外，对于许多问题，神经网络可能不是正确的工具，您可能希望使用简单的逻辑回归或决策树（存在在线算法）。

如果您觉得其他解决方案值得一提，请随时提出问题。

`贡献`

与机器学习的许多子领域一样，在线学习远不是一门精确的科学，因此还有很多事情要做。请随意以您喜欢的任何方式作出贡献，我们总是乐于接受新的想法和方法。如果您想参与代码库的创建，请查看contribution.md文件。还可以查看问题跟踪器，看看是否有什么能吸引您的注意。

最后但并非最不重要的是，我们非常欢迎您与我们分享您如何使用creme或一般在线学习！我们相信在线学习可以解决实践中的许多难点，我们愿意分享经验。

本项目遵循所有贡献者规范。欢迎任何形式的贡献！

<表>
_max-halford

_adilzouitine

_{raphael sourty}

_{geoffrey bolmier}

_{Vincent D Wartemdam}

_vaysserobin

_{lygon bowen west}

_{florent le gac}

_{adrian rosebrock}
<表>许可证
请参见许可文件
标签：
数据
from
模型
import
机器
model
增量
mae
hour
欢迎加入QQ群-->： 979659372
                                    
推荐PyPI第三方库
rexart
利用trexfitter输出制作一些艺术
scitime
scikit学习算法的训练时间估计
Flask-Pon
Ponyorm用于烧瓶应用
MarkdownSubscript
允许下标文本的python标记扩展。
smart-parking
智能停车
jsoncomment
json解析器的包装器，允许注释、多行字符串和尾随逗号
slag
区块链上的分布式微博社交网络。
conf
方便使用配置文件
norm
简单的peasy sql生成
pynvx
nvidia cuda api的python绑定。
egg
这是一个孤独的蛋。
scraps
超导谐振腔分析绘图软件。
arborq
查询arbor peakflow sp设备的python包。
dxchainp
允许用户与dxchain交互的工具包
pdbg-bcit
一个用于学习者的python调试器，它打印出所有更改。

导 航 栏

                                            项目 描述
                                        

                                            版本历史
                                        
项目 链接
首页
                                    
标 签
许可证: BSD许可证（BSD 3条款）
作者信息:: 暂无
                                
                            
维护者

                                  MaxHalford
                                
最新PyPI项目
italian_vip_says
UFx
vofs
fake_item_generator
NerEva
django-monologue
fio_product_attribute_strict
climailsystem
pyshape
tbb-devel
npy-append-arra
anthill.tal.macrorenderer
odoo11-addon-stock-a
uuuu
contextil
fyl_nester
appomatic_renderable
teacher
chuletas
slackbot_ce
最新Python常见问题
无法使用Django restfram生成PDF
无法使用Django Rest框架发送压缩的gzip数据
无法使用Django rest框架进行身份验证(请求用户=匿名用户）
无法使用Django、Python和JavaScrip触发onclick函数
无法使用Django.views.generic.View保存表单
无法使用Django（python 2.7，OS X 10.11.1）
无法使用Django/mongoengine连接到MongoDB（身份验证失败）
无法使用Django\u mssql\u后端迁移到外部hos
无法使用Django&Python3.4连接到MySql
无法使用Django+nginx上载媒体文件
无法使用Django1.6导入名称模式
无法使用Django1.7和mongodb登录管理站点
无法使用Djangoadmin创建项目，进程使用了错误的路径，因为我事先安装了错误的Python
无法使用Djangockedi验证CBV中的字段
无法使用Djangocketditor上载图像（错误400）

creme 0.3.0

creme的Python项目详细描述

有用链接

安装

快速示例

与其他解决方案的比较

`贡献`

许可证

推荐PyPI第三方库

rexart

scitime

Flask-Pon

MarkdownSubscript

smart-parking

jsoncomment

slag

conf

norm

pynvx

egg

scraps

arborq

dxchainp

pdbg-bcit

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

creme 0.3.0

creme的Python项目详细描述

有用链接

安装

快速示例

与其他解决方案的比较

贡献

许可证

推荐PyPI第三方库

rexart

scitime

Flask-Pon

MarkdownSubscript

smart-parking

jsoncomment

slag

conf

norm

pynvx

egg

scraps

arborq

dxchainp

pdbg-bcit

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

`贡献`

导航栏

项目链接

标签