如何匹配python正则表达式中的所有链接?

2024-09-29 06:35:17 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试创建一个正则表达式,它与来自页面源的链接相匹配。我的文本格式如下:

这里有些东西 这里有个链接

<a class="_5syj" href="https://www.here.com/FirstCal?ref=br_rs">First Cal</a><span class="mls _1ccm9 _49"></span><a class="_fasc" href="https://www.here.com/Mall?ref=br_rs">Mall</a><span class="m1ls _1cm9 _49"></span>

我想获取所有以href=”开头的链接https://www.here.com/(.*)?ref=br\rs“>

所以从链接中,我可以得到整个链接,或者FIrstCal和Mall(从链接中)

Python代码:

^{pr2}$

但它不起作用。在

有什么想法吗?在

PS:正则表达式是唯一的方法。html解析无法工作,因为网站的结构不“稳定”。


Tags: 文本格式httpsbrcomrefhere链接www
1条回答
网友
1楼 · 发布于 2024-09-29 06:35:17

将beautifulGroup与仅匹配href内容的正则表达式一起使用:

soup.find_all('a', href=re.compile('https://www.here.com/.*?ref=br_rs'))

解析器不关心结构是否在变化,您只需要精确地知道什么是稳定的;链接。在

演示:

^{pr2}$

相关问题 更多 >