读/写/解析大型文本文件的有效方法（python）

1条回答

网友

1楼 · 发布于 2024-06-28 19:14:15

我的第一个想法是使用一个流解析器：基本上你一次读入一个文件，然后边做统计分析。这通常是用标记语言（如HTML和XML）完成的，因此您会发现许多针对这些语言的解析器，包括Python标准库中的解析器。一个简单的句子分析器是你自己可以写的东西，例如：

import re, collections
sentence_terminator = re.compile(r'(?<=[.!?;])\s*')
class SentenceParser(object):
    def __init__(self, filelike):
        self.f = filelike
        self.buffer = collections.deque([''])
    def next(self):
        while len(self.buffer) < 2:
            data = self.f.read(512)
            if not data:
                raise StopIteration()
            self.buffer += sentence_terminator.split(self.buffer.pop() + data)
        return self.buffer.popleft()
    def __iter__(self):
        return self

这只会根据需要从文件中读取数据来完成一个句子。它以512字节的块读取，因此无论实际的文件有多大，您在内存中一次只能保存少于1千字节的文件内容。在

在流解析器之后，我的第二个想法是memory map文件。这样您就可以遍历并用换行符替换每个句子结束符后面的空格；之后，每个句子都将从一个新行开始，您就可以打开文件并使用readline()或for循环来逐行遍历它。但是您仍然需要担心多行语句；另外，如果任何一个句子结束符后面跟一个空格字符，您就必须插入一个新行（而不是用它替换其他内容），对于一个大文件来说，这可能是非常低效的。在

相关问题更多 >

编程相关推荐

热门问题

热门文章

读/写/解析大型文本文件的有效方法（python）

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >