我想从一个目录加载多个具有不同结构的xlsx文件,并根据文件名分配它们自己的数据帧。我有30多个不同结构的文件,但为了简洁起见,请考虑以下内容:
3个excel文件[wild_动物.xlsx,家养动物_动物.xlsx]在
我想给每个文件分配自己的数据帧,这样如果文件名包含'wild',它将被分配到wild_df,如果farm则指定farm_df,如果是dom_df,则指定给dom_df。这只是过程的第一步,因为实际文件包含大量“噪音”,需要根据文件类型等进行清理。文件名也会每周更改,只有几个关键标记保持不变。在
我的假设是glob模块是开始这项工作的最佳方式,但就获取文件扩展名的非常特定的部分并使用它来分配特定的df而言,我有点不知所措,所以任何帮助都是值得的。在
不久前我问了一个类似的问题,但这是一个更广泛的问题的一部分,我现在已经解决了大部分问题。在
我会把它们解析成DataFrame的字典:
然后您可以将它们作为普通字典元素进行访问:
^{pr2}$等等
您需要获取所有xlsx文件,而不是使用comprehension dict,您可以访问任何elm
为了完整起见,我想展示我最终使用的解决方案,非常接近Khelili的建议,只做了一些调整以适应我的特定代码,包括在这个阶段不创建数据帧
相关问题 更多 >
编程相关推荐