2024-10-19 16:45:08 发布
网友
你好,我对处理大数据完全陌生,对python也很熟悉 我有150个csv的大小为70MB,我必须在一个源集成,以消除像唯一计数,唯一的名字和所有的基本统计数据。你知道吗
有人能建议我怎么做吗? 我在python中遇到了一个包“pyelasticsearch”,它对我来说在enthaughtcanopy中使用是多么的可行。你知道吗
需要建议!你知道吗
尝试使用pandas包。你知道吗
pandas
读取单个csv将是:
import pandas as pd df = pd.read_csv('filelocation.csv')
如果有多个文件,只需concat它们。假设ls是一个文件位置列表,那么:
concat
ls
df = pd.concat([pd.read_csv(f) for f in ls])
然后要将它们作为单个文件写入,请执行以下操作:
df.to_csv('output.csv')
当然,所有这些都适用于内存操作(70x150=~10.5 GB RAM)。如果这不可能-考虑构建一个增量进程或使用dask数据帧。你知道吗
dask
尝试使用
pandas
包。你知道吗读取单个csv将是:
如果有多个文件,只需
concat
它们。假设ls
是一个文件位置列表,那么:然后要将它们作为单个文件写入,请执行以下操作:
当然,所有这些都适用于内存操作(70x150=~10.5 GB RAM)。如果这不可能-考虑构建一个增量进程或使用
dask
数据帧。你知道吗相关问题 更多 >
编程相关推荐