相关分析的效用函数集合
korr的Python项目详细描述
科尔
相关分析的效用函数集合
目录
安装
korr
git repo可用作PyPi package
pip install korr
用法
检查笔记本的examples文件夹。
计算相关矩阵及其p值
- pearson——皮尔逊/样本相关性(区间和比率标度数据)
- kendall——肯德尔陶秩相关(序数数据)
- spearman——spearman rho秩相关(序数数据)
- mcc——二元变量之间的马修斯相关系数
eda,深入研究结果
- flatten——一个表(pandas),每个相关对对应一行,带有变量indicies,corr.,p-value。例如,尝试用
corr_vs_pval
找到“好”的截止值,然后用flatten
查找变量指示符。 - slice_yx——将(y,x)数据集的相关矩阵和p值矩阵切成(y,x)向量和(x,j,x)矩阵
- corr_vs_pval——找到a)高度相关对,b)不相关对,c)混合结果的p值截止值(α)的直方图。
- bracket_pval——带有更细粒度p值括号的直方图。
- corrgram——相关图,括号中p值的相关热图
实用功能
- confusion——混淆矩阵。是马修斯相关性(mcc)的要求,比sklearn的要快得多。
参数稳定性
- bootcorr——基于自举样本估计多个相关矩阵。从这里可以评估相关性估计的稳定性(对样本内变化的敏感性)。例如,稳定估计是建模的良好候选,而不稳定相关对是p-hacking和不可再现性的良好候选。
变量选择,搜索功能
- mincorr——从所有估计的相关对中,选择一个给定的
n=3,5,..
变量,这些变量彼此之间的相关性低且不显著。(有关应用程序,请参见binsel包。) find_best
——找到n个“最佳”,即高和最显著的相关性find_worst
——找出n个“最差”,即不显著/随机和低,相关性- find_unrelated——不相关对的返回变量指示符(以不重要的p值表示)
命令
- 检查语法:
flake8 --ignore=F401
- 运行单元测试:
python -W ignore -m unittest discover
- 删除
.pyc
文件:find . -type f -name "*.pyc" | xargs rm
- 删除
__pycache__
文件夹:find . -type d -name "__pycache__" | xargs rm -rf
- 用绳线上传到pypi:
python setup.py sdist && twine upload -r pypi dist/*
调试
- 分析python代码的笔记本位于profile文件夹中
支架
请open an issue支持。
贡献
请使用Github Flow进行投稿。创建分支、添加提交和open a pull request。