如何在python中输入一个1000万行的大文件？

网友

1楼 · 编辑于 2024-10-01 07:31:01

同时读取和拆分可减少所需的内存：

b = []
with open('10-million-combos.txt','r') as inp:
    for line in inp:
        b.append(line.strip().split('\t',1))

网友

2楼 · 编辑于 2024-10-01 07:31:01

只需迭代每一行，然后根据制表符进行拆分，然后将返回的列表附加到已声明的列表l。在

l = []
with open('10-million-combos.txt','r') as f:
    for line in f:
        l.append(line.strip().split('\t'))

网友

3楼 · 编辑于 2024-10-01 07:31:01

问题是要将每一行读入Python列表中。文件有多大？这就是你在记忆中投入的。在

在同一步骤中进行阅读和分析，这样Python就可以进行垃圾收集了。在

当您开始分析部分时，您可能想查看Pandas，这是一个用于数据分析的库。在

这些建议你附加到列表中的其他答案在内存使用方面也会遇到同样的问题。诀窍是不要构建一个列表，而是逐步进行分析，这样就不需要在内存中存储10M行。在

如果您按照您在注释中所述的方式递增总计，并且绝对必须将其存储在内存中，则可以将值作为键存储在字典中，并增加计数。在

这仍然会导致内存占用，因此如果仍然崩溃，您可以选择：

与另一个磁盘重复写入。然后你可以读取每个文件并获取总数，然后用一个变量计算出哪个文件的总数最高。这将是缓慢的，但将交换内存使用磁盘使用。
使用修改后的二叉树防止将任何位存储两次，并添加一个“times”变量，您可以将其递增到节点：
ab型 abc公司 abc公司 A{times:0}->；B{times:1}->；C{times:2}