用于列组合的数据帧架构验证

import pandas as pd import pandera as pa def get_valid_coord_df(filename): df = pd.read_csv(filename) schema = DataFrameSchema(columns={ 'x_coord': pa.Column(pa.Float, Check.in_range(0, 100_000)), 'y_coord': pa.Column(pa.Float, Check.in_range(0, 100_000)), 'value_A': pa.Column(pa.Float, Check.in_range(0, 20)), 'value_B': pa.Column(pa.Float, Check.in_range(0, 20)) }, strict=True, ordered=True) schema.validate(df, lazy=True) #will raise SchemaError df_coord = pd.DataFrame(df['x_coord'].astype(str) + ',' + df['x_coord'].astype(str)) schema_coord = DataFrameSchema(columns={ 'x_coord': pa.Column(pa.String, allow_duplicates=False)}) schema_coord.validate(df_coord, lazy=True) #will raise SchemaError return df

1条回答

网友

1楼 · 发布于 2024-10-01 00:32:42

在这里，您可以使用wide checks访问Check函数arg中的整个数据帧：

import pandera as pa

schema = pa.DataFrameSchema(
    columns={
        "x_coord": pa.Column(pa.Float, pa.Check.in_range(0, 100_000)),
        "y_coord": pa.Column(pa.Float, pa.Check.in_range(0, 100_000)),
        "value_A": pa.Column(pa.Float, pa.Check.in_range(0, 20)),
        "value_B": pa.Column(pa.Float, pa.Check.in_range(0, 20)),
    },
    # checks at the DataFrameSchema level take the dataframe as input
    # (as opposed to the series at the Column level)
    checks=pa.Check(lambda df: ~df[["x_coord", "y_coord"]].duplicated()),
    strict=True,
    ordered=True,
)

如果您发现自己在代码库中更频繁地使用此检查，还可以定义一个check extension，以便您可以在pa.Check命名空间中访问它：

import pandera.extensions as extensions

@extensions.register_check_method(
    statistics=["columns"], supported_types=pd.DataFrame,
)
def unique_columns(pandas_obj, *, columns):
    return ~pandas_obj[columns].duplicated()


schema = pa.DataFrameSchema(
    checks=pa.Check.unique_columns(["x_coord", "y_coord"])
)

schema.validate(
    pd.DataFrame(
        {
            "x_coord": [1.0, 2.0, 3.0],
            "y_coord": [4.0, 5.0, 6.0],
        }
    )
)

相关问题更多 >

编程相关推荐

热门问题

热门文章