Dask get_dummies不会转变变量

>>> import dask.dataframe as dd >>> import pandas as pd >>> df_d = dd.read_csv('/datasets/dask_example/dask_get_dummies_example.csv') >>> df_d.head() uid gender 0 1 M 1 2 NaN 2 3 NaN 3 4 F 4 5 NaN >>> daskDataCategorical = df_d[['gender']] >>> daskDataDummies = dd.get_dummies(daskDataCategorical) >>> daskDataDummies.head() gender 0 M 1 NaN 2 NaN 3 F 4 NaN >>> daskDataDummies.compute() gender 0 M 1 NaN 2 NaN 3 F 4 NaN 5 F 6 M 7 F 8 M 9 F >>>

1条回答

网友

1楼 · 发布于 2024-10-01 11:29:10

在尝试使用get_dummies之前，您需要将字符串列转换为Categorical。This pull request添加了一个dask.dataframe.get_dummies，如果您试图传递object（string）列，这将导致错误，这与pd.get_dummies不同。在

要获得Categorical，您可以在dd.get_dummies之前使用.categorize，或者使用pandas>；=0.19，在CSV中使用read和dtype关键字，如下所示

df_d = dd.read_csv('/datasets/dask_example/dask_get_dummies_example.csv', dtype={"gender": "category"})

下面是一个小例子：

^{pr2}$
Dask需要get_dummies的分类，因为它需要知道它需要创建的所有新的虚拟变量。熊猫不必担心这些，因为你所有的数据都已经在内存中了。在

相关问题更多 >

编程相关推荐

热门问题

热门文章