是否可以对分块数据使用DictVectorizer?

2024-10-04 03:19:38 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试使用python阅读器导入分块数据,以克服内存错误,并使用DicVectorizer将字符串转换为浮动数据类型。但我可以看到两个不同的字符串在转换后有相同的代码。我们是否有其他方法/选项对分块数据进行数据类型转换


Tags: 数据方法内存字符串代码选项错误分块
1条回答
网友
1楼 · 发布于 2024-10-04 03:19:38

在0.19中,可以在read\u csv中将列声明为Categorial。见documentaion

因此,作为doc的一个示例,您可以像这样在csv中键入一个名为col1的列,以减少内存占用:

pd.read_csv(StringIO(data), dtype={'col1': 'category'})

相关问题 更多 >