2024-10-02 12:34:45 发布
网友
我在Python中处理正则表达式的逻辑时遇到了一些问题。我想写一个正则表达式,如果字符串以子字符串结尾,不会返回匹配。最后,我试图排除在<a>标记的href属性中找到的指向二进制文件的任何链接。(这是在Scrapy中实现的)
<a>
href
我的问题是,如果我的正则表达式是[^ \t\n\r\f\v]+[\/]?(?<!.pdf),并且它找到指向someDocument.pdf的链接,它将返回someDocument.pd
[^ \t\n\r\f\v]+[\/]?(?<!.pdf)
someDocument.pdf
someDocument.pd
如果它发现了那个字符串,我怎么能阻止它返回任何匹配呢?在
如果使用from scrapy,则可能需要在regex末尾添加一个$:
$
[^ \t\n\r\f\v]+[\/]?(?<!\.pdf)$
如果有任何方法可以从项目中使用BeautifulSoup,请尝试:
如果使用from scrapy,则可能需要在regex末尾添加一个
$
:如果有任何方法可以从项目中使用BeautifulSoup,请尝试:
^{pr2}$相关问题 更多 >
编程相关推荐