线性回归模型中最优r^2的穷举搜索
cavemanstatistics的Python项目详细描述
穴居人统计1.0
此软件包包含不必要的缓慢、强力搜索方法,用于查找数据集中的最高r^2(具有指定或未指定依赖变量的线性回归模型)。这个项目主要是为了了解pypi.org的打包和开发我的工作流程。在未来,我想将循环矢量化,也许可以添加更多的搜索选项和更好的搜索方法。注意组合爆炸,并适当设置界限。
依赖性
- 努比
- 熊猫
- scipy
- SCIKIT学习
- 制表
安装
安装时使用:
pip install cavemanstatistics
快速文档
这些说明将为您在本地计算机上启动和运行项目的副本,以便进行开发和测试。有关如何在实时系统上部署项目的说明,请参阅部署。
安装后,导入:
fromcavemanstatisticsimportExhaustiveSearch,BruteForce
搜索最高r^2(未指定的从属变量):
model,results=ExhaustiveSearch(data=pd.dataframe,remove=list,lowerbound=int,upperbound=int,adjusted_R2=bool).solve()y,x=modelprint(model)('depedant variable',[listofexplanatoryvariables])
expletivesearch().solve()返回一个包含字符串(依赖变量)和列表(解释变量)的touple,以及一个包含所有结果的排序字典。
参数:
- 数据:必须是pandas数据框
- 删除:将要排除为从属变量的变量名的位置列表(或放置空列表)
- lowerbound:解集中解释变量的最小整数
- 上限:解集中最大整数个外刨变量
- 调整后的r2:r^2为真,r^2为假
搜索最高r^2(指定的从属变量):
model,results=BruteForce(data=pd.dataframe,Y=str,lowerbound=int,upperbound=int,adjusted_R2=bool).solve()y,x=modelprint(model)('depedant variable',[listofexplanatoryvariables])
solve()返回一个包含字符串(依赖项)和列表(解释变量)的touple,以及一个包含所有结果的排序字典。
参数:
- 数据:必须是pandas数据框
- Y:要指定为从属变量的变量的名称
- lowerbound:解集中解释变量的最小整数
- 上限:解集中最大整数个外刨变量
- 调整后的r2:r^2为真,r^2为假
作者
- geoffrey kasenbacher-kgeoffrey
许可证
这个项目是在麻省理工学院的许可下授权的-详细信息请参见LICENSE.md文件
致谢
- 这是R-package“跳跃”引起的挫败感的产物
- 向ascii艺术创作者提示fedora