Python：这个示例中用于文本解析的一个很好的正则表达式

A AH0 A'S EY1 Z A(2) EY1 A. EY1 A.'S EY1 Z A.S EY1 Z A42128 EY1 F AO1 R T UW1 W AH1 N T UW1 EY1 T AAA T R IH2 P AH0 L EY1 AABERG AA1 B ER0 G AACHEN AA1 K AH0 N AAKER AA1 K ER0 AALSETH AA1 L S EH0 TH AAMODT AA1 M AH0 T AANCOR AA1 N K AO2 R AARDEMA AA0 R D EH1 M AH0

What is happening is these are being collected: ('A', ' ') ('A', ' ', 'B', 'E', 'G', 'R') is actually AABERG ('A', ' ', 'C', 'E', 'H', 'N') AACHEN ('A', ' ', 'C', 'O', 'N', 'R') ('A', ' ', 'D', 'M', 'O', 'T') ('A', ' ', 'E', 'D', 'M', 'R') ('A', ' ', 'E', 'H', 'L', 'S', 'T') ('A', ' ', 'K', 'R', 'E') AAKER

3条回答

网友

1楼 · 编辑于 2024-10-04 11:28:20

如果你想要的只是文本每行的第一个单词，你甚至不需要正则表达式：

for line in text.split('\n'):
    first_word = line.split()[0]

但是如果您坚持使用正则表达式（这也将确保您只获取字母（A-Z）和{}）：

^{pr2}$

注意，这假设text是一个带换行符（新行）的字符串如果您实际上是从文件或其他源读取的，则迭代将不同。在

网友

2楼 · 编辑于 2024-10-04 11:28:20

我不是百分之百地了解你期望的输出结果，但这里有一个尝试：

#!/usr/bin/env python
import re

pattern = r"^([A-Za-z]+)"

text = """A  AH0
A'S  EY1 Z
A(2)  EY1
A.  EY1
A.'S  EY1 Z
A.S  EY1 Z
A42128  EY1 F AO1 R T UW1 W AH1 N T UW1 EY1 T
AAA  T R IH2 P AH0 L EY1
AABERG  AA1 B ER0 G
AACHEN  AA1 K AH0 N
AAKER  AA1 K ER0
AALSETH  AA1 L S EH0 TH
AAMODT  AA1 M AH0 T
AANCOR  AA1 N K AO2 R
AARDEMA  AA0 R D EH1 M AH0"""

def main():
    print re.findall(pattern, text, re.MULTILINE)

if __name__ == '__main__':
    main()

结果是：

^{pr2}$

如果你的问题变得更复杂，我们可以对这个答案做些小的改动。假设您需要不同的行分隔符，而不仅仅是\n。以下模式将不使用MULTILINE，但将生成与之前相同的输出。在第一个集合中，您可以添加其他可以匹配的字符，例如;。在

pattern = r"[\n^]([A-Za-z]+)"
print re.findall(pattern, text)

网友

3楼 · 编辑于 2024-10-04 11:28:20

你为什么需要一个正则表达式？在

with open('data.txt') as f:
     lines = list(f)
print [l.split()[0] for l in lines

Some people, when confronted with a problem, think “I know, I'll use regular expressions.” Now they have two problems.

更新

相关问题更多 >

编程相关推荐

热门问题

热门文章