用python处理大数据的最佳方法

2024-05-19 01:12:57 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在使用库NCBIXML读取一个50GB的XML文件(来自blastall调用)

blasthandle = open( blastfile, 'r' )


blast_records = NCBIXML.parse( blasthandle )
for record in blast_records:
    get some infos from the record ...

读取文件不是那么慢,但我想对数据执行一些其他操作(将其保存到文本文件中,将其放入数组中,…)

我能用来执行这些任务的最好的python结构是什么,目前我使用的是普通数组,但它似乎非常慢,而且由于内存问题,我无法将数据保存到文本文件中

任何帮助都将不胜感激。在

编辑 我试过了

^{pr2}$

编辑2

多亏了马丁,更新了库,才避免了这个问题


Tags: 文件数据编辑parse数组xmlopenrecord

热门问题