如何处理包含多个csv文件的数据集?

2024-09-21 03:18:24 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在实现一个LSTM,但我有数据集的问题。 我的数据集是以多个CSV文件(不同的问题实例)的形式存在的。我在一个目录中有100多个CSV文件,我想用python读取和加载它们。我的问题是,我应该如何着手构建用于培训和测试的数据集。是否有办法将每个csv文件分成两部分(80%的培训和20%的测试),然后将每个csv文件的80%分组为培训数据,并将20%分组为测试数据。 或者还有其他更有效的方法吗 如何将这些多个CSV作为输入来训练和测试LSTM? 这是我的csv文件结构的一部分CSV file structure 这是我的csvs文件的屏幕(问题实例)csvs files


Tags: 文件csv数据实例方法目录结构形式
1条回答
网友
1楼 · 发布于 2024-09-21 03:18:24

您可以使用pandaspd.concat()将多个数据帧与相同的列(pandas docs)组合起来

您可以iterate through that directory创建一个csv文件名列表,使用pd.read_csv()读取每个csv,然后使用以下内容连接到最终数据帧:

final_df=pd.DataFrame(columns=[<YOUR COLUMNS>])
for csv_path in csv_files_list:
    df=pd.read_csv(csv_path)
    final_df=pd.concat(final_df, df)

从这里,您可以使用sklearn或任何其他您喜欢的方法分割培训和测试数据

相关问题 更多 >

    热门问题