我正在实现一个LSTM,但我有数据集的问题。 我的数据集是以多个CSV文件(不同的问题实例)的形式存在的。我在一个目录中有100多个CSV文件,我想用python读取和加载它们。我的问题是,我应该如何着手构建用于培训和测试的数据集。是否有办法将每个csv文件分成两部分(80%的培训和20%的测试),然后将每个csv文件的80%分组为培训数据,并将20%分组为测试数据。 或者还有其他更有效的方法吗 如何将这些多个CSV作为输入来训练和测试LSTM? 这是我的csv文件结构的一部分CSV file structure 这是我的csvs文件的屏幕(问题实例)csvs files
您可以使用pandas
pd.concat()
将多个数据帧与相同的列(pandas docs)组合起来您可以iterate through that directory创建一个csv文件名列表,使用
pd.read_csv()
读取每个csv,然后使用以下内容连接到最终数据帧:从这里,您可以使用sklearn或任何其他您喜欢的方法分割培训和测试数据
相关问题 更多 >
编程相关推荐