badfish—python中的一个缺失数据分析和争用库

badfish的Python项目详细描述


badfish引入missframe,它是pandasDataFrame上的包装器, 纠结和调查丢失的数据。它打开了一个易于使用的 用于总结和探索缺失模式的api。

badfish提供了一些方法,使得调查任何 数据争用、调查、ETL过程中的系统问题 导致数据丢失。

api的灵感来自于当 正在探索丢失的数据。

badfish在其大多数方法中使用wherehowapi来 准备要处理的数据子集。where:处理 缺少数据where指定的列。how:要么all |any列应该丢失。

例如,mf.counts(columns = ['Age', 'Gender'])将给出 整个数据集中缺少值。

而,mf.counts(where=['Income'], columns = ['Age', 'Gender']) 会给出数据子集中丢失值的计数,其中Income 已经不见了。

安装

pip install badfish

用法

>>> import badfish as bf
>>> mf = bf.MissFrame(df)

示例

不久将添加一个exmaple ipython笔记本。

计数

每列缺少数据的基本计数。

>>> mf.counts(where=['gender', 'age'], how='all', columns=['Income', 'Marital Status'])

模式

获取缺少数据的列的不同组合的计数。 True表示丢失,False表示存在。

>>> mf.pattern()

同样的事情也可以以情节的形式表现出来(灵感来自vim R中的包装)

>>> mf.plot(kind='pattern')

Example plot:

注意:此方法中可以同时使用wherehow

项目集挖掘

使用频率项集挖掘查找丢失数据的子组 一起。注意:这使用pymining包。

>>> itemsets, rules = mf.frequency_item_set()

队列

尝试查找列值之间的重要组差异 除GROUP子句中指定的以外。在上创建的组 GROUP子句中缺少或不缺少列的依据。 内部使用scipy.stats.ttest_ind

此方法对每个列中的值而不是列名起作用。

注:实验方法。

>>> mf.cohort(group=['gender'], columns=['Income'])

许可证

请看repository license

一般来说,我们有许可的恶鱼,使其广泛使用 可能的。

要求捐款

如果您有任何想法、问题或功能要求,请随时打开 发布,发送公关或联系我们。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何删除列表中的重复项并将列表复制到另一个列表中   Java如何在非UI应用程序中检测tab键按下?   java无法在未调用Looper的线程内创建处理程序。警报对话框线程上的prepare()   java Jaxb将XML转换为ElementNSImpl类型,而不是正确的类型   基于java标记的过滤实现Firestore   我们可以使用Java和Eclipse使用YouTube分析Api吗?   JavaSpring注释在多个选项卡中同时打开多个视图   java Hibernate不使用JBOSS检索数据   矩阵如何从Apache Commons数学Java库中找到伪逆   对象Java打印“null”作为字符串引用!=使无效   java中的图形慢映射   java用户界面:操作栏和上下文操作栏,新趋势   java Infinispan,版本化操作返回不正确的结果   java调整保存在父JFrame中的JInternalFrame的大小,并且该父JFrame使用ComponentMover API注册   java如何防止会话属性在服务器上持久化?   java如何为SpringBoot 2创建自定义嵌入式servlet容器   使用Robolectric进行单元测试时,在片段类内调用getString()时发生java IllegalStateException