Python pystreamfs包_程序模块 - PyPI

用于在模拟数据流上选择特性的python包

pystreamfs的Python项目详细描述

pystreamfs是一个开放源码的python包，允许在模拟数据流上快速简单地比较功能选择算法。

用户可以在作为numpy.ndarray提供的任何数据集上模拟具有不同批处理大小的数据流。 pystreamfs将指定的功能选择算法应用于每个批处理，并计算每次t时选择的功能集。pystreamfs也可用于绘制性能指标。

pystreamfs为数据流提供了5种内置的功能选择算法。此外，您可以在github上找到3个可供下载的数据集。 pystreamfs具有模块化结构，因此易于扩展（有关更多信息，请参见第2.5节）。

许可证：麻省理工学院许可证
即将进行的更改：

能够模拟要素流
生成人工数据流的能力
一次测试多个特征选择算法的能力

1开始

1.1预排队

需要安装以下python模块（比指定的版本旧的版本也可能工作）：

python>；=3.7.1
numpy=1.15.4
psutil=5.4.7
matplotlib>；=2.2.3
scikit学习>；=0.20.1

特征选择算法所需的任何模块

1.2如何获取pystreamfs
使用pip：`pip安装pystreamfs`
或在`/dist`中下载并解压缩.tar.gz文件。导航到解压文件夹并执行 `python setup.py安装`

2包装

2.1文件

主要模块是/pystreamfs/pystreamfs.py。特征选择算法存储在/algorithms

2.2主模块：`pystreamfs.py`

pystreamfs.py提供以下功能：

x，y=准备数据（数据、目标、随机播放）
- 说明：准备用于模拟数据流的数据集：随机排序数据矩阵的行并提取目标变量y和功能x
- 输入：
  - 数据：numpy.ndarray，数据集
  - 目标：int，目标变量的索引
  - shuffle：bool，如果true随机排序样本
- 输出：
  - x：numpy.ndarray，功能
  - y：numpy.ndarray，目标变量
stats=模拟流（x，y，fs_算法，模型，参数）
- 说明：遍历数据集中的所有数据点以模拟数据流。执行给定的特征选择算法并返回性能统计信息。
- 输入：
  - x：numpy.ndarray，这是由prepare\data（）返回的x
  - y：numpy.ndarray，这是由prepare\u data（）返回的y
  - fs_算法：函数，特征选择算法
  - ml_model：对象，用于计算精度分数的机器学习模型（关于knn的备注：相邻数量必须大于或等于批量大小）
  - 参数：dict，包括： num-features：整数，要返回的功能数批处理大小：整数，在一次迭代中处理的实例数附加算法特定参数
- 输出：统计信息：dict 功能：列表列表，每个批次的选定功能集时间平均值：float，一次执行功能选择的平均计算时间时间度量值：列表，每个批次的时间度量值 memory_avg：float，执行一次功能选择后的平均内存使用量，使用psutil.process（os.getpid（））.memory_full_info（）.uss 内存测量：列出每个批次的内存测量 acc_avg：float，所选功能集分类的平均精度 acc_measures：列表，每批的精度测量值 fscr_avg：浮点，每个时间窗口的平均特征选择更改率（fscr）。 fscr是相对于t-1在t中变化的选定特征的百分比（如果所有选定特征保持相同，则fscr=0；如果所有选定特征发生变化，则fscr=1） fscr_measures列出每个批次的fscr度量值
plt=plot_stats（stats，ftr_names，param，fs_name，model_name）：说明：在所有时间窗口中绘制时间、内存、FSCR和选定功能的统计信息。输入：统计信息：dict（请参见simulate嫒stream（）的统计信息） ftr\u名称：numpy.ndarray，包含所有功能名称参数：dict，参数 fs_name：字符串，特征选择算法的名称型号名称：字符串，机器学习型号的名称输出： plt：pyplot对象：统计图

`2.3内置功能选择算法`

基于感知器算法的在线特征选择。（2013年）-链接到论文
利用Huang等人的矩阵草图在数据流（FSD）上进行无监督特征选择。（2015年）-链接到纸张
hamoodi等提出的基于微簇近邻的特征选择方法。（2018年）-链接到论文
基于carvalho等人改进的平衡风选分类器的极值特征选择。（2006年）-链接到纸张
Vadim Borisov基于神经网络的取消特征选择（github）

`2.4可下载数据集`

所有数据集都已清理并规范化。所有数据集的目标变量都移到第一列。

德国信用评分（链接）
人类活动识别的二进制版本（链接）。原始har数据集有一个多变量目标。对于它的二进制版本，我们将类"walking"定义为正类（label=1），将所有其他类定义为负类（non-walking）。我们把172原始"行走"类的2个样本，随机抽取所有其他类的3000个实例。
usenet（链接）

`2.5如何添加特征选择算法`

如果要使用pystreamfs测试自己的特征选择算法，则必须将算法封装在一个函数中格式如下：

defyour_fs_algorithm(X,Y,w,param):"""Your feature selection algorithm    :param numpy.nparray X: current data batch    :param numpy.nparray Y: labels of current batch    :param numpy.nparray w: feature weights    :param dict param: any parameters the algorithm requires    :return: w (updated feature weights), param    :rtype numpy.ndarray, dict    """...dofeatureselection...returnw,param

然后，您可以导入和测试功能选择算法，方法与任何内置算法相同（请参见示例）。


＜H2＞3。例frompystreamfsimportpystreamfsimportnumpyasnpimportpandasaspdfrompystreamfs.algorithmsimportofsfromsklearn.neighborsimportKNeighborsClassifier# Load a datasetdata=pd.read_csv('../datasets/har.csv')feature_names=np.array(data.drop('target',1).columns)data=np.array(data)# Extract features and target variableX,Y=pystreamfs.prepare_data(data,0,False)# Load a FS algorithmfs_algorithm=ofs.run_ofs# Define parametersparam=dict()param['num_features']=5# number of features to returnparam['batch_size']=50# batch size# Define ML modelmodel=KNeighborsClassifier(n_jobs=-1,n_neighbors=5)# Data stream simulationstats=pystreamfs.simulate_stream(X,Y,fs_algorithm,model,param)# Plot statisticspystreamfs.plot_stats(stats,feature_names,param,'Online feature selection (OFS)','K Nearest Neighbor').show()
标签：
数据
功能
numpy
算法
data
param
特性
数据流
ndarray
欢迎加入QQ群-->： 979659372
                                    
推荐PyPI第三方库
stemhours-aphrodite
本质上是一个精心设计的包装
fortinetapi
富通API
fn-graph
管理、维护和重用复杂的功能图，无需麻烦。
ScrobblIES
提供了一组用于从最后一个.fm
outlier-101703547-simran-kaur
用于通过行移除除去异常值
unSteg
用于查找隐藏文件和修复文件头的项目。
mindset
心态
ExactCover
精确覆盖解算器。
sermos
面向现实世界的Sermos机器学习
QuantDigger
量化交易Python回测系统
satyrn-python
支持分支代码的笔记本替代方案
pythondaemon3k
防止漏洞攻击的软件包
meraxes.finance
未提供项目说明
aliyunpythonsdkcdn
防止漏洞攻击的软件包
sangreal-bt
回测向量

导 航 栏

                                            项目 描述
                                        

                                            版本历史
                                        

                                                下载文件
                                            
项目 链接
首页
                                    
标 签
许可证: BSD许可证（BSD 3条款）
作者信息:: 暂无
                                
                            
维护者

                                  johaug
                                
最新PyPI项目
italian_vip_says
UFx
vofs
fake_item_generator
NerEva
django-monologue
fio_product_attribute_strict
climailsystem
pyshape
tbb-devel
npy-append-arra
anthill.tal.macrorenderer
odoo11-addon-stock-a
uuuu
contextil
fyl_nester
appomatic_renderable
teacher
chuletas
slackbot_ce
最新Python常见问题
为什么我的神经网络模型的准确性不能在这个训练集上得到提高？
为什么我的神经网络模型的权重变化不大？
为什么我的神经网络的成本不断增加？
为什么我的神经网络的输入pickle文件是19GB？
为什么我的神经网络给属性错误？“非类型”对象没有属性“形状”
为什么我的神经网络训练这么慢？
为什么我的神经网络输出错误？
为什么我的神经网络预测适用于MNIST手绘图像时是正确的，而适用于我自己的手绘图像时是不正确的？
为什么我的神经网络验证精度比我的训练精度高，而且它们都是常数？
为什么我的私人用户间聊天会显示在其他用户的聊天档案中？
为什么我的积分的绝对误差估计值大于积分（使用scipy.integrate.nqad）？
为什么我的积层回归器得分比它的组件差？
为什么我的移动方法不起作用？
为什么我的稀疏张量不能转换成张量
为什么我的稀疏张量不能转换成张量？

pystreamfs 0.0.6

pystreamfs的Python项目详细描述

1开始

1.1预排队

1.2如何获取pystreamfs
使用pip：`pip安装pystreamfs`
或在`/dist`中下载并解压缩.tar.gz文件。导航到解压文件夹并执行 `python setup.py安装`

2包装

2.1文件

2.2主模块：`pystreamfs.py`

`2.3内置功能选择算法`

`2.4可下载数据集`

`2.5如何添加特征选择算法`

推荐PyPI第三方库

stemhours-aphrodite

fortinetapi

fn-graph

ScrobblIES

outlier-101703547-simran-kaur

unSteg

mindset

ExactCover

sermos

QuantDigger

satyrn-python

pythondaemon3k

meraxes.finance

aliyunpythonsdkcdn

sangreal-bt

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

pystreamfs 0.0.6

pystreamfs的Python项目详细描述

1开始

1.1预排队

1.2如何获取pystreamfs 使用pip：pip安装pystreamfs或在/dist中下载并解压缩.tar.gz文件。导航到解压文件夹并执行 python setup.py安装

2包装

2.1文件

2.2主模块：pystreamfs.py

2.3内置功能选择算法

2.4可下载数据集

2.5如何添加特征选择算法

推荐PyPI第三方库

stemhours-aphrodite

fortinetapi

fn-graph

ScrobblIES

outlier-101703547-simran-kaur

unSteg

mindset

ExactCover

sermos

QuantDigger

satyrn-python

pythondaemon3k

meraxes.finance

aliyunpythonsdkcdn

sangreal-bt

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

1.2如何获取pystreamfs
使用pip：`pip安装pystreamfs`
或在`/dist`中下载并解压缩.tar.gz文件。导航到解压文件夹并执行 `python setup.py安装`

2.2主模块：`pystreamfs.py`

`2.3内置功能选择算法`

`2.4可下载数据集`

`2.5如何添加特征选择算法`

导航栏

项目链接

标签