从StringIO读取直到遇到某个字节的快速方法

网友

1楼 · 编辑于 2024-10-01 11:40:53

#!/usr/bin/env python3
import io


def iterate_stream(stream, delimiter, max_read_size=1024):
    """ Reads `delimiter` separated strings or bytes from `stream`. """
    empty = '' if isinstance(delimiter, str) else b''
    chunks = []
    while 1:
        d = stream.read(max_read_size)
        if not d:
            break
        while d:
            i = d.find(delimiter)
            if i < 0:
                chunks.append(d)
                break
            chunks.append(d[:i+1])
            d = d[i+1:]
            yield empty.join(chunks)
            chunks = []
    s = empty.join(chunks)
    if s:
        yield s


if __name__ == '__main__':
    print(next(iterate_stream(io.StringIO('ABCZ123'), 'Z')))
    print(next(iterate_stream(io.BytesIO(b'ABCZ123'), b'Z')))

网友

2楼 · 编辑于 2024-10-01 11:40:53

我很失望这个问题只有一个关于堆栈溢出的答案，因为这是一个有趣和相关的问题。不管怎么说，因为只有奥夫戈洛文给出了解决方案，我觉得可能比较慢，所以我想了一个更快的解决方案：

def foo(stringio):
    datalist = []
    while True:
        chunk = stringio.read(256)
        i = chunk.find('Z')
        if i == -1:
            datalist.append(chunk)
        else:
            datalist.append(chunk[:i+1])
            break
        if len(chunk) < 256:
            break
    return ''.join(datalist)

这是分块读取io（可能在第一个块中找不到end char）。它非常快，因为没有为每个字符调用Python函数，相反，最大限度地使用C编写的Python函数。在

这比ovgolovin的解决方案快60倍左右。我运行timeit来检查它。在

网友

3楼 · 编辑于 2024-10-01 11:40:53

i = iter(lambda: stringio.read(1),'Z')
buf = ''.join(i) + 'Z'

这里iter在这种模式下使用：iter(callable, sentinel) -> iterator。在

''.join(...)相当有效。最后一个添加'Z'''.join(i) + 'Z'的操作不是很好。但可以通过向迭代器添加'Z'来解决：

^{pr2}$

另一种方法是使用生成器：

def take_until_included(stringio):
    while True:
        s = stringio.read(1)
        yield s
        if s=='Z':
            return

i = take_until_included(stringio)
buf = ''.join(i)

我做了一些效率测试。所述技术的性能几乎相同：

http://ideone.com/dQGe5

相关问题更多 >

编程相关推荐

热门问题

热门文章

从StringIO读取直到遇到某个字节的快速方法

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >