R正则表达式编译器对给定正则表达式的工作方式不同

1条回答

网友

1楼 · 发布于 2024-05-19 16:35:24

它看起来像TRE regex engine（在基R正则表达式函数中默认使用），基于最初由Henry Spencer在1986年编写的正则表达式库，如果正则表达式中的第一个模式以惰性量词开始，以$锚点结束，则匹配字符串末尾的最短匹配

sub(" +?on.*$", "", Data)  # "Posted by ondrej" "Posted by ona'je"
sub(" +?on.*", "", Data)   # "Posted bydrej on 29 Feb 2020." "Posted bya'je on 29feb 2020"
sub(" +?on(.*)", "", Data) # as expected
sub(" +on.*", "", Data)    # as expected

发生了什么事

第一种情况是sub(" +?on.*$", "", Data)，第一种模式设置正则表达式中同一级别上所有量词的贪婪性。因此，第二个量词*，将被设置为lazy，即使在没有?的情况下也是如此，因为第一个空间是用+?一个懒惰量词来量化的。这是一个已知的TRE“bug”，也存在于基于Henry Spencer的regexl库的一些其他regex引擎中
第二个sub(" +?on.*", "", Data)匹配的方式与写入" +?on.*?"的方式相同（同样，由于第一个模式将贪婪级别设置为该级别上的懒惰），并且would only match1个或多个空格，然后on，.*?在模式结束时不匹配任何内容
第三个模式sub(" +?on(.*)", "", Data)产生了预期的结果，因为第二个量化模式.*位于另一个层次（一个层次深），其贪婪性不受另一个层次上的 +?的影响。所以，(.*)在这里非常匹配
第四个模式sub(" +on.*", "", Data)产生了预期的结果，因为第一个模式是贪婪的，所以下一个量化的模式贪婪也是贪婪的

相关问题更多 >

编程相关推荐

热门问题

热门文章

R正则表达式编译器对给定正则表达式的工作方式不同

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >