分组而不为re.findall（）创建新目标

line="(1 (2 (1 (1 (1 (2 You) (1 (2 (2 wo) (2 n't)) (2 (2 like) (2 Roger)))) (2 ,)) (2 but)) (2 (2 you) (3 (3 (2 will) (2 quickly)) (2 (2 recognize) (2 him))))) (2 .))\n" numR=re.compile(r"\({1}(\d)? ((')*\w+|('|\.|,))\){1}") re.findall(numR,line) [('2', 'You', '', ''), ('2', 'wo', '', ''), ('2', 'like', '', ''), ('2', 'Roger', '', ''), ('2', ',', '', ','), ('2', 'but', '', ''), ('2', 'you', '', ''), ('2', 'will', '', ''), ('2', 'quickly', '', ''), ('2', 'recognize', '', ''), ('2', 'him', '', ''), ('2', '.', '', '.')]

1条回答

网友

1楼 · 发布于 2024-09-21 03:21:30

在您的模式中，您有4个捕获组。您可以在第二个捕获组中使用一个单独的替换，总共只有两个捕获组

\((\d) ([.',]|\w+)\)

解释

\(匹配(
(\d)组1，捕获一个数字（使用\d+表示1+个数字）
(组2
- [.',]|\w+匹配character类中列出的字符之一或mat 1+word字符
)关闭组2
\)

Regex demo| Python demo

import re
line="(1 (2 (1 (1 (1 (2 You) (1 (2 (2 wo) (2 n't)) (2 (2 like) (2 Roger)))) (2 ,)) (2 but)) (2 (2 you) (3 (3 (2 will) (2 quickly)) (2 (2 recognize) (2 him))))) (2 .))\n"
numR=re.compile(r"\((\d) ([.',]|\w+)\)")
print(re.findall(numR,line))

结果

[('2', 'You'), ('2', 'wo'), ('2', 'like'), ('2', 'Roger'), ('2', ','), ('2', 'but'), ('2', 'you'), ('2', 'will'), ('2', 'quickly'), ('2', 'recognize'), ('2', 'him'), ('2', '.')]

请注意，您可以省略{1}，而替换('|\.|,)可以使用字符类[.',]编写

相关问题更多 >

编程相关推荐

热门问题

热门文章