将数据附加到文件而不提取的存档格式

2024-10-01 22:36:33 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个大的xml文件(100GB或更大),其中包含无序记录,如下所示:

<page id = "1">content 1</page>
<page id = "2">...</page>
<page id = "2">...</page>
... many other pages ...
<page id = "1">content 2</page>
... many other pages ...

我必须以只读模式访问数据,但按页分组:

<page id = "1">
    content1
    content2
    ...
</page>
<page id = "2">
    ...
    ...
</page>
...other pages...

页面不能按id排序

现在,我的解决方案需要预处理xml,对于每个页面:

  • 打开具有唯一命名约定的文件(例如,“1.data”表示第1页,“2.data”,…)
  • 附加当前页的内容
  • 关闭文件

对我来说,问题是处理大量页面需要创建数百万个文件,这当然不是很好。你知道吗

我的问题是是否可以使用某种存档文件(就像tar或zip)来序列化我的所有数据。优点是只有一个包含所有数据的大文件,可以按顺序读取,因此不一定需要压缩。你知道吗

我更喜欢避免使用数据库,因为我的软件应该是独立的,我更喜欢使用python。你知道吗

谢谢你

里卡多


Tags: 文件数据iddata记录page模式页面

热门问题