一个易于使用基于predictivepower的统计信息的库
skeptic的Python项目详细描述
怀疑论者
早期概念阶段,欢迎反馈,但请注意,这并不意味着“可用”或“正确”,即使在早期的alpha类型中也不是
一个易于使用基于预测能力的统计的库。在
为什么使用预测能力?在
基于预测能力的统计数据[可以说]更适合于建模现实,而且对于某些问题也更直观。在
当面对高维非线性问题时(例如一组fmri与脑癌的存在和严重程度的相关性),不能使用“标准”统计检验。然而,这并不意味着我们不能对上述数据进行统计分析,它只是意味着我们需要使用更先进的方法(目前称为机器学习)来找到相关性,并为我们的发现指定一个非随机的p值。在
当科学主张的有效性必须向数学外行的听众解释时,像T检验这样的东西不一定能凭直觉来把握,并且对数据做出一些严厉的假设。可以说,至少对于某些类型的问题,基于预测力的结论更容易理解。在
功能(为什么要使用此库)
该库试图提供上述基于预测能力的统计数据,并在此过程中试图抽象出以下几点:
- 在给定研究人员手头的计算量的情况下,为问题找到“最佳可能模型”的过程。在
- 利用所述预测模型进行有效的k-折叠交叉验证过程。在
- 找到一个计算有意义的误差/精度函数的过程,在此基础上产生一个预测的幂相关(部分被抽象掉)
- 清除数据的过程(例如,从csv文件到pandas数据帧,每个列都有正确的类型)。在
- 根据数据和(可选)研究人员输入的关于他们通常尝试与数据集一起使用的统计显著性检验的输入,计算“p值”模拟值。在
如果我有时间并且对项目有兴趣,我可能会补充一些其他内容:
- 基于嵌入的反褶积技术
- 在全球分布的假设下运作
- 假设样本分布的“预期”形状
- ???在
路线图
上面标题中的特性的路线图
- 在
- WIP-原型完成
- 在
- WIP-原型完成
- 在
- WIP-原型完成
- 在
- WIP-原型完成
- 在
- 尚未开始
为什么要建这个图书馆
因为市场上的每一种替代方案似乎都是:
- 混合了太多经典的统计假设,从而使该工具的适用范围更广,但在预测能力可能更高的情况下,却削弱了它的有用性。在
- 错综复杂的混乱。在
- 封闭来源,有时付费。在
- 在使用的机器学习模型中过于保守,结果不太理想。在
如何使用此库
文档尚未准备好,但请参见the integration tests以获取一些用法示例。在
- 项目
标签: