正则表达式，负回溯，防止匹配

2024-10-02 12:34:45 发布

男 | 程序猿一只，喜欢编程写python代码。

我在Python中处理正则表达式的逻辑时遇到了一些问题。我想写一个正则表达式，如果字符串以子字符串结尾，不会返回匹配。最后，我试图排除在<a>标记的href属性中找到的指向二进制文件的任何链接。（这是在Scrapy中实现的）

我的问题是，如果我的正则表达式是[^ \t\n\r\f\v]+[\/]?(?<!.pdf)，并且它找到指向someDocument.pdf的链接，它将返回someDocument.pd

如果它发现了那个字符串，我怎么能阻止它返回任何匹配呢？在

Tags：文件字符串标记属性 pdf 链接结尾二进制

1条回答

网友
1楼 · 发布于 2024-10-02 12:34:45

如果使用from scrapy，则可能需要在regex末尾添加一个$：
[^ \t\n\r\f\v]+[\/]?(?<!\.pdf)$
如果有任何方法可以从项目中使用BeautifulSoup，请尝试：
^{pr2}$