“grep C N”的Python等价物？

2条回答

网友

1楼 · 编辑于 2024-10-02 02:36:18

As recommended通过Ignacio Vazquez-Abrams，使用a deque来存储最后的n行。一旦有许多行出现，popleft为每个新行添加。当正则表达式找到匹配项时，返回堆栈中以前的n行，然后迭代n更多行并同时返回这些行。在

这使您不必在任何行上迭代两次（干），并且只在内存中存储最小的数据。您还提到了对Unicode的需要，因此处理文件编码并向RegEx搜索添加Unicode标志非常重要。另外，另一个答案使用重新匹配（）而不是搜索（）因此可能产生意想不到的后果。在

下面是一个例子。这个例子只对文件中的每一行迭代一次，这意味着同样包含命中的上下文行将不再被查看。这可能是也可能不是理想的行为，但可以很容易地进行调整，以突出显示或以其他方式在上下文中标记前一次命中的行。在

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import codecs
import re
from collections import deque

def grep(pattern, input_file, context=0, case_sensitivity=True, file_encoding='utf-8'):
    stack = deque()
    hits = []
    lines_remaining = None

    with codecs.open(input_file, mode='rb', encoding=file_encoding) as f:
        for line in f:
            # append next line to stack
            stack.append(line)

            # keep adding context after hit found (without popping off previous lines of context)
            if lines_remaining and lines_remaining > 0:
                continue  # go to next line in file
            elif lines_remaining and lines_remaining == 0:
                hits.append(stack)
                lines_remaining = None
                stack = deque()

            # if stack exceeds needed context, pop leftmost line off stack 
            # (but include current line with possible search hit if applicable)
            if len(stack) > context+1:
                last_line_removed = stack.popleft()

            # search line for pattern
            if case_sensitivity:
                search_object = re.search(pattern, line, re.UNICODE)
            else:
                search_object = re.search(pattern, line, re.IGNORECASE|re.UNICODE)

            if search_object:
                lines_remaining = context

    # in case there is not enough lines left in the file to provide trailing context
    if lines_remaining and len(stack) > 0:
        hits.append(stack)

    # return list of deques containing hits with context
    return hits  # you'll probably want to format the output, this is just an example

网友

2楼 · 编辑于 2024-10-02 02:36:18

我的方法是将文本块拆分为行列表。接下来，遍历每一行，看看是否有匹配项。在匹配的情况下，收集上下文行（发生在当前行之前和之后的行）并返回它。这是我的代码：

import re

def grep(pattern, block, context_lines=0):
    lines = block.splitlines()
    for line_number, line in enumerate(lines):
        if re.match(pattern, line):
            lines_with_context = lines[line_number - context_lines:line_number + context_lines + 1]
            yield '\n'.join(lines_with_context)

# Try it out
text_block = """One
Two
Three
abc defg
four
five
six
abc defoobar
seven
eight
abc de"""

pattern = 'abc de.*'

for line in grep(pattern, text_block, context_lines=2):
    print line
    print ' -'

输出：

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章

“grep C N”的Python等价物？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >