将150个csv接收到一个数据源中

2024-10-19 16:45:08 发布

您现在位置:Python中文网/ 问答频道 /正文

你好,我对处理大数据完全陌生,对python也很熟悉 我有150个csv的大小为70MB,我必须在一个源集成,以消除像唯一计数,唯一的名字和所有的基本统计数据。你知道吗

有人能建议我怎么做吗? 我在python中遇到了一个包“pyelasticsearch”,它对我来说在enthaughtcanopy中使用是多么的可行。你知道吗

需要建议!你知道吗


Tags: csv数据名字建议统计数据计数陌生pyelasticsearch
1条回答
网友
1楼 · 发布于 2024-10-19 16:45:08

尝试使用pandas包。你知道吗

读取单个csv将是:

import pandas as pd
df = pd.read_csv('filelocation.csv')

如果有多个文件,只需concat它们。假设ls是一个文件位置列表,那么:

df = pd.concat([pd.read_csv(f) for f in ls])

然后要将它们作为单个文件写入,请执行以下操作:

df.to_csv('output.csv')

当然,所有这些都适用于内存操作(70x150=~10.5 GB RAM)。如果这不可能-考虑构建一个增量进程或使用dask数据帧。你知道吗

相关问题 更多 >