source con下的媒体数据集

2024-10-16 22:34:56 发布

您现在位置:Python中文网/ 问答频道 /正文

这更像是一个关于在源代码管理下存储数据集的可行性的一般性问题。 我有20000个csv文件和数字数据,我每天更新。目录的总大小约为100兆字节,存储在ext4分区的本地磁盘上。 每天的变化应该是1KB左右的差异。你知道吗

我可能不得不对数据进行更正,因此我正在考虑对整个directory=1进行版本控制toplevel包含10个level1 dir,每个包含10个level2 dir,每个包含200个csv文件。你知道吗

数据由python进程(框架)写入文件。 问题是写操作的性能,与整个数据相比,delta很小。你知道吗

想到svn和git,它们将有python模块来使用它们。 什么最有效?你知道吗

其他解决方案,我相信是可能的,但我会坚持保持数据是文件,因为是。。。你知道吗


Tags: 文件csv数据目录字节源代码dir数字
1条回答
网友
1楼 · 发布于 2024-10-16 22:34:56

如果你问,根据你对数据的描述,将数据集置于版本控制之下是否有效,我相信答案是肯定的。Mercurial和Git都非常擅长处理数千个文本文件。Mercurial可能是一个更好的选择,因为它是用python编写的,比Git更容易学习。(据我所知,现在有了更好的工具,没有充分的理由在新项目中采用Subversion。)

如果您想知道是否有一种方法可以通过借用版本控制系统的代码来加快应用程序的编写速度,我认为让应用程序修改现有文件会容易得多。(也许你已经在这么做了?你写的不清楚。)

相关问题 更多 >