为Tensorflow模块创建内存高效的数据管道

2024-10-02 18:18:36 发布

您现在位置:Python中文网/ 问答频道 /正文

我目前正在TensorFlow和Pandas的帮助下构建RNN。最初,我解析了大量的.ipdr文件,并创建了一个数据集,同时对我的一些分类特性进行了热编码。我将文件行的必要部分附加到python字典中,将其转换为DataFrame,然后另存为.csv文件。之后,我加载.csv文件并使用它来训练我的TF模型。最初,对于少量的文件,这是可行的,但现在我有大量的文件,我得到一个MemoryError时,试图连接一个热门功能列在一起,甚至无法尝试保存文件为csv。我希望看看是否有更好的方法来解析.ipdr文件,并准备好TensorFlow训练数据。我需要能够一个热编码我的一些功能列。任何建议都会非常有用。这似乎是一个效率低下,以实现我想要的,但我有很少的经验,与这些图书馆,所以我用我知道的现在


Tags: 文件csv数据模型功能dataframepandas编码