数据科学和分析任务的实用程序包。核心模块ds-utils(数据科学实用程序)旨在与Pandas一起工作,以简化常见任务,例如为数据帧生成元数据、验证合并数据帧和可视化数据帧。
dsx的Python项目详细描述
<;<;数据科学实用程序(DSX)>
dsx包包含一组包装函数,用于简化数据分析任务中的常见操作。 核心模块ds\u utils(数据科学实用程序)设计用于Pandas中的DataFrame 简化常见任务。在
该软件包可用于以下设置:
- Jupyter笔记本
- Jupyter实验室
- PyCharm的Python控制台
- iPython控制台
- Python脚本
镶嵌
- 使用Pip安装:
pip install dsx
文件
完整文档站点:https://dataninja.ml/static/pages/docs_dsx/index.html
1。核心模块:“ds\U utils”
核心模块是“ds\u utils”。 该模块包含可以完成的功能列表 使用较少代码的常见数据分析任务。 基本上,这些函数是Pandas中常用方法的包装器,尤其是 数据帧对象的方法。在
DataFrame实用程序函数的一些关键功能如下:
- 生成数据帧中列的元数据
- 缺失值的数量和百分比
- 唯一值的数目和百分比
- 数据类型
- 生成列中值的累计百分比
- 单个列的快速重命名
- 重新排序数据帧的列
- 将列名标准化为iPython友好名称
- 使用分部关键字检索列名
- 将列中的串联字符串展开到子表中
- 可视化数据帧对象
- 数据网格查看器
- 透视表查看器
- 快速分析器(透视表和可视化)
1.1使用
下面是导入模块的示例代码:
^{pr2}$dsx的类中有两类方法,它们将以不同的方式调用:
- Methods:类实例的动态函数
- 通过本机DataFrame对象的扩展域('ds')调用
df=pd.read_excel(os.path.join(os.getcwd(),"data.xlsx"))df.ds.isnull("Column_Name")
- Static functions类对象中的静态函数
- 作为pd\utils类的静态函数调用
df=pd.read_excel(os.path.join(os.getcwd(),"data.xlsx"))dsx.isnull(df,"Column_Name")
2。Data Science工作流“ds_Workflow”(正在开发/正在工作)
“ml\u utils”模块包含简化中常见任务的方法 数据科学工作流程。这些方法构建在中的函数之上 核心模块“pd\u utils”。在
该模块的一些主要功能如下:
- 获取分类功能的列名
- 获取数值特征的列名
- 创建或合并从分类特征创建的虚拟变量 可选择使用k-1变倍
- 数据探索
- 为所有分类特征生成条形图和累计百分比报告
- 生成所有数值特征的分布图
- 生成相关矩阵的热图
- 预处理
- 创建一个包含所有标准化功能与其他功能合并的数据帧
- 生成功能列表
- 模型评估
- 生成召回精度阈值曲线
- 生成真正-假正曲线
2.1使用
{strong}域中的data{strong}方法只能在本地框架中被调用。在
在“ml\u workflow”中调用方法:
df=pd.read_excel(os.path.join(os.getcwd(),"data.xlsx"))cols_categorical=df.ml.get_features_categorical()
- 项目
标签: