监督学习数据的模拟框架。这些功能的具体设计是为了让用户获得最大的自由度,最终达到研究的目的。此外,可以在本地和全局级别上创建仿真的特征重要性。例如,对于基准特征选择算法来说,这是特别有趣的。

xyp的Python项目详细描述


模拟监督学习数据drawing

使用xypy.Xy()可以方便地模拟有监督的学习数据,例如回归和分类问题。 仿真可以非常具体,因为用户有很多自由度。例如,函数 非线性的形状也是用户定义的。相互作用可以形成和(共同)变化。为了更多 您可以访问我们的blog的具体动机。 我已经从我的r版本改编了这个包,您可以查看here

使用量

您可以在testPYPIGitHub

您可以使用以下命令通过pypi方便地安装包。

pip install xypy

我的GitHub上有一个示例测试脚本,您可以从中开始 在模拟中。

模拟数据

您可以使用交互和用户指定的非线性来模拟回归和分类数据。与 参数stn可以改变模拟的信噪比。我强烈鼓励你 读这个blog post, 我分析了不同信噪比的ols系数。

# load the library
from xypy import Xy
# simulate regression data
my_sim = Xy(n = 1000, 
            numvars = [10,10], 
            catvars = [3, 2], 
            noisevars = 50, 
            stn = 100.0)

# get a glimpse of the simulation
my_sim

# plot the true underlying effects
my_sim.plot()

# extract the data
X, y = my_sim.data

# extract the true underlying model weights
my_sim.coef_

功能选择

您可以提取模拟的特征重要性。例如,对特征选择算法进行基准测试。 你可以阅读我用这个特性做的一个小基准 在我们的blog上。 在python中也可以轻松地执行相同的分析。

# Feature Importance 
my_sim.varimp()
drawing

请随时向我提供意见和想法。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java Android编程存储的图像在PC上的格式无效   安卓无法通过Java代码使按钮变宽   java在Spring事务中的行为差异需要新的和嵌套的传播   java如何在Ubuntu上构建javafuse?   java不支持Eclipse包包含javac。exe   读取大文件时java StAX解析器的xml问题   连接到mysql时java通信链路故障   java WebSphere web容器线程的最大线程状态为runnable   为什么我需要添加双引号来打印java中字符数组的第一个和最后一个元素   java Hibernate在更新现有父实体时不创建新的子实体   java创建JSON格式输出   java SonarQube与Eclipse   无法从静态上下文引用java非静态方法toString   java位集向后显示值?   java为什么maven不从TestClass生成源代码?   java在实践中,在catch块中抛出异常是否有用?   java如何通过FileinputStream添加还原设置功能   java复制记事本中的所有内容并粘贴到网页的文本区域