正则表达式和bigram

2条回答

网友

1楼 · 编辑于 2024-07-04 08:46:44

Q1:

这个正则表达式[^\P{P}-]+捕获除破折号以外的所有标点，并且\B-\B捕获不被单词边界包围的破折号。您可以使用这两个正则表达式的组合来替换标点符号，但dashbes绑定两个类似这样的单词除外

[^\P{P}-]+|(\B-\B)

Q2:

如果破折号前的第一个单词不包含数字，则此正则表达式可以捕获场景

(^\w+)(\b-\b)(\d+|\D+)$

网友

2楼 · 编辑于 2024-07-04 08:46:44

您可以使用负前瞻来断言单词不只是由数字或单词字符组成，而不是由数字和用连字符分隔的部分组成

(?<!\S)(?!(?:\d+|[^\W\d_]+)(?:-(?:\d+|[^\W\d_]+))*(?!\S))\S+

(?<!\S)左边的空白边界
(?!负前瞻
- (?:\d+|[^\W\d_]+)匹配没有数字的数字或单词字符和_
- (?:非捕获组作为一个整体重复
  - -(?:\d+|[^\W\d_]+)匹配-和之前的相同模式
- )*关闭非捕获组并可选地重复
- (?!\S)在右侧断言空白边界
)关闭前瞻
\S+匹配1+非空白字符

Regex demo Python demo

import re
 
pattern = r"(?<!\S)(?!(?:\d+|[^\W\d_]+)(?:-(?:\d+|[^\W\d_]+))*(?!\S))\S+"
 
s = ("Tokyo2020\n"
    "Tokyo!2020\n"
    "covid-19\n"
    "cov!d-19\n"
    "Oompa-L00mpa\n"
    "double-barreled\n"
    "double barreled\n"
    "test-t9")
 
result = re.sub(pattern, "[ ]", s)
print(result)

输出（其中[ ]可以是空格）

[ ]
[ ]
covid-19
[ ]
[ ]
double-barreled
double barreled
[ ]

相关问题更多 >

编程相关推荐

热门问题

热门文章

正则表达式和bigram

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >