超级数据帧索引
pandas-select的Python项目详细描述
pandas-select是一组有助于索引的数据帧选择器的集合 并选择数据,完全兼容熊猫香草索引。在
选择器函数可以根据变量的名称、数据类型、任意变量进行选择 条件,或这些条件的任何组合。在
pandas-select的灵感来自两个R库:tidyselect 和recipe。在
安装
pandas-select是一个仅限于Python的包hosted on PyPI。 建议的安装方法是pip-安装 变成virtualenv:
$ pip install pandas-select
设计目标
- 完全兼容pandas.DataFrame[]和pandas.DataFrame.loc 访问器。在
- 通过切割样板突出可读性和简洁性:
- 缓解indexing with hierarchical index的挑战 并提供了slicers的替代方案 当无法手动列出标签时。在
# pandas-selectselector=Contains("Jeff",axis="index",level="Name")df_mi.loc[selector]# vanillaselector=df_mi.index.get_level_values("Name").str.contains("Jeff")df_mi.loc[selector]
- 当数据帧的列事先未知时,允许deferred selection, 例如在自动机器学习应用程序中。pandas_select优惠 与sklearn集成。在
frompandas_selectimportAnyOf,AllBool,AllNominal,AllNumeric,ColumnSelectorfromsklearn.composeimportmake_column_transformerfromsklearn.preprocessingimportOneHotEncoder,StandardScalerct=make_column_transformer((StandardScaler(),ColumnSelector(AllNumeric()&~AnyOf("Generation"))),(OneHotEncoder(),ColumnSelector(AllNominal()|AllBool()|"Generation")),)ct.fit_transform(df)
项目信息
pandas-select是根据BS3许可证发布的, 它的文档位于Read the Docs, GitHub上的代码, 以及PyPI的最新版本。 它在python3.6+上进行了测试。在
- 项目
标签: