擅长:python、mysql、java
<p>首先,这些文件中似乎有几个不同的数据集。你可能希望它们都在一个数据框中,但现在,我假设你希望它们分开。例如(一个数据帧中的所有wind*.xls文件和另一个数据帧中的所有stat*.xls文件)。可以使用<code>read_excel</code>分析数据,然后使用时间戳将结果作为索引连接起来,如下所示:</p>
<pre><code>import numpy as np
import pandas as pd, datetime as dt
import glob, os
runDir = "Path to files"
if os.getcwd() != runDir:
os.chdir(runDir)
files = glob.glob("wind*.xls")
df = pd.DataFrame()
for each in files:
sheets = pd.ExcelFile(each).sheet_names
for sheet in sheets:
df = df.append(pd.read_excel(each, sheet, index_col='Fecha'))
</code></pre>
<p>你现在有一个时间索引数据帧!如果您真的想在一个数据框中包含所有数据(来自所有文件类型),您可以调整<code>glob</code>以使用类似<code>glob.glob('*.xls')</code>的方法包含所有文件。根据个人经验,我会提醒你,你可能更容易分别阅读每种类型的数据,然后在你做了一些错误检查/咀嚼等之后合并它们</p>