如何在python中使用regex“跳过”特定单词？

2条回答

网友

1楼 · 编辑于 2024-09-30 16:26:50

使用非捕获组。看一看：

(?<=– )(?:.+)?(?:bzw\.|Z\. b\.|u\. a\.)[^\.]+

Regex Demo-右上角可以看到单个regex组件的描述。你知道吗

(?<=– )                    start after – character + whitespace, but not match
(?:.+)?                    add any text before abbreviation into non-capturing group.
(?:bzw\.|Z\. b\.|u\. a\.)  add abbreviations into non-capturing group. Escape the dots via \. 
[^\.]+                     match anything until fullstop

基本上，这个想法是从–字符+空格开始，但不匹配它。然后捕获以下任何文本、缩写并捕获到第一个点.，但不捕获缩写组（注意?:）。因为缩写点是非捕获组的一部分，我们“跳过”它并继续，直到结束句子的点。您可以通过|符号添加更多缩写来扩展缩写列表。你知道吗

奖金：

如果您预期并不总是从–序列开始，那么可以执行以下操作：

(?:– |: )((?:.+)?(?:bzw\.|Z\. b\.|u\. a\.)[^\.]+)

例如，这将允许regex使用:字符而不是–，但是您需要将结果作为组1检索。你知道吗

Regex Demo

网友

2楼 · 编辑于 2024-09-30 16:26:50

这在德语中是个问题，使用缩写，我在处理德语文本时也遇到过。你有没有试着用德语语法分析器，把你的文本分成短语或句子？试试看，可能有用。例如，在Python中有NLTK和Stanford。你知道吗

在英语或法语中，人们可能会说短语的结尾由一个点、空格和大写字母组成。然而，这对德语不起作用，因为名词是大写的。你知道吗

另一方面，正如你提到的“常用缩略语”，如果它们如此频繁，为什么不把它们收集在字典里，并使用它们，以便在文本中跳过它们呢？你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章