如何处理包含多个csv文件的数据集？ - 问答 - Python中文网

如何处理包含多个csv文件的数据集？

2024-09-21 03:18:24 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我正在实现一个LSTM，但我有数据集的问题。我的数据集是以多个CSV文件（不同的问题实例）的形式存在的。我在一个目录中有100多个CSV文件，我想用python读取和加载它们。我的问题是，我应该如何着手构建用于培训和测试的数据集。是否有办法将每个csv文件分成两部分（80%的培训和20%的测试），然后将每个csv文件的80%分组为培训数据，并将20%分组为测试数据。或者还有其他更有效的方法吗如何将这些多个CSV作为输入来训练和测试LSTM？这是我的csv文件结构的一部分CSV file structure 这是我的csvs文件的屏幕（问题实例）csvs files

Tags：文件 csv 数据实例方法目录结构形式

1条回答

网友

1楼 · 发布于 2024-09-21 03:18:24

您可以使用pandaspd.concat()将多个数据帧与相同的列（pandas docs）组合起来

您可以iterate through that directory创建一个csv文件名列表，使用pd.read_csv()读取每个csv，然后使用以下内容连接到最终数据帧：

final_df=pd.DataFrame(columns=[<YOUR COLUMNS>])
for csv_path in csv_files_list:
    df=pd.read_csv(csv_path)
    final_df=pd.concat(final_df, df)

从这里，您可以使用sklearn或任何其他您喜欢的方法分割培训和测试数据

相关问题更多 >

编程相关推荐

热门问题

热门文章