Python输入fi中字符串出现的所有行和行号

3条回答

网友

1楼 · 编辑于 2024-09-27 07:29:56

可以使用以下正则表达式：

import re

lines = [
    'Sogan+Noun ,+Punc domates+Noun ,+Punc patates+Noun ,+Punc elma+Noun ve+Conj turunçgil+Noun+A3pl ihracat+Noun+P3sg+Dat devlet+Noun destek+Noun+P3sg ver+Verb+Pass+Prog2+Cop .+Punc',
    'Sog+Noun ,+Punc domates+Noun ,+Punc patates+Noun ,+Punc elma+Noun ve+Conj turunçgil+Noun+A3pl ihracat+Noun+P3sg+Dat devlet+Noun destek+Noun+P3sg ver+Verb+Pass+Prog2+Cop .+Punc',
]

keywords = ['Sog']
pattern = re.compile('(\w+)\+')

for lineno, line in enumerate(lines):
    words = set(m.group(1) for m in pattern.finditer(line))  # convert to set for efficiency
    matches = [keyword for keyword in keywords if keyword in words]
    if matches:
        result = "{:<15} {}".format(','.join(matches), lineno)
        print(result)
        print(line)

输出

Sog             1
Sog+Noun ,+Punc domates+Noun ,+Punc patates+Noun ,+Punc elma+Noun ve+Conj turunçgil+Noun+A3pl ihracat+Noun+P3sg+Dat devlet+Noun destek+Noun+P3sg ver+Verb+Pass+Prog2+Cop .+Punc

解释

模式'(\w+)\+'后跟+字符的任何一组字母，+是特殊字符，因此需要对其进行转义，以便匹配。然后使用group来提取匹配的组（即字母组）。你知道吗

进一步

正则表达式syntax

网友

2楼 · 编辑于 2024-09-27 07:29:56

您可能需要使用单词边界标记\b。这是\w和\W之间转换的空匹配。如果希望关键字是文本字符串，则必须首先escape它们。可以使用|将所有内容组合成一个正则表达式：

pattern = re.compile(r'\b(' + '|'.join(map(re.escape, keyword)) + r')\b')

或者

pattern = re.compile(r'\b(?' + '|'.join(re.escape(k) for k in keyword) + r')\b')

计算匹配项现在变得更容易了，因为您可以使用^{}而不是自己理解：

matches = pattern.finditer(line)

由于每个匹配项都包含在一个组中，因此打印并不困难：

result = "{:<15} {}".format(','.join(m.group() for m in matches), lineno)

或者

result = "{:<15} {}".format(','.join(map(re.Match.group(), matches)), lineno)

当然，别忘了

import re

角盒

如果关键字是具有相同前缀的彼此的子集，请确保先出现较长的关键字。例如，如果你有

keyword = ['foo', 'foobar']

正则表达式将是

\b(foo|foobar)\b

当您遇到一行中有foobar时，foo将与之成功匹配，然后与\b'. This is documented behavior of|`匹配失败。解决方案是在构造表达式之前，通过减小长度对所有关键字进行预排序：

keywords.sort(key=len, reversed=True)

或者，如果可以使用非列表输入：

keywords = sorted(keywords, key=len, reversed=True)

如果您不喜欢这个顺序，您可以在匹配后以其他顺序打印它们。你知道吗

网友

3楼 · 编辑于 2024-09-27 07:29:56

Question: a keyword like "Sog" it also finds the Sogan ... I only want tokens between whitespaces. ... how can i add that regex to this code.

用你的keywords构建一个regex，用or |分隔符表示多个keywords。你知道吗

例如：

import re

def index(lines, keyword):
    rc = re.compile(".*?(({})\+.+?\s)".format(keyword))

    for i, line in enumerate(lines):
        match = rc.match(line)
        if match:
            print("lines[{}] match:{}\n{}".format(i, match.groups(), line))

if __name__ == "__main__":
    lines = [
    'Sogan+Noun ,+Punc domates+Noun ,+Punc patates+Noun ,+Punc elmaro+Noun ve+Conj ... (omitted for brevity)',
    'Sog+Noun ,+Punc domates+Noun ,+Punc patates+Noun ,+Punc elma+Noun ve+Conj ... (omitted for brevity)',
]
    index(lines, 'elma')
    index(lines, 'Sog|elma')

Output:

lines[1] match:('elma+Noun ', 'elma')
Sog+Noun ,+Punc domates+Noun ,+Punc patates+Noun ,+Punc elma+Noun ve+Conj ... (omitted for brevity)
lines[1] match:('Sog+Noun ', 'Sog')
Sog+Noun ,+Punc domates+Noun ,+Punc patates+Noun ,+Punc elma+Noun ve+Conj ... (omitted for brevity)

用Python:3.5测试

相关问题更多 >

编程相关推荐

热门问题

热门文章