我正在尝试创建一个正则表达式,它与来自页面源的链接相匹配。我的文本格式如下:
这里有些东西 这里有个链接
<a class="_5syj" href="https://www.here.com/FirstCal?ref=br_rs">First Cal</a><span class="mls _1ccm9 _49"></span><a class="_fasc" href="https://www.here.com/Mall?ref=br_rs">Mall</a><span class="m1ls _1cm9 _49"></span>
我想获取所有以href=”开头的链接https://www.here.com/(.*)?ref=br\rs“>
所以从链接中,我可以得到整个链接,或者FIrstCal和Mall(从链接中)
Python代码:
^{pr2}$但它不起作用。在
有什么想法吗?在
PS:正则表达式是唯一的方法。html解析无法工作,因为网站的结构不“稳定”。
将beautifulGroup与仅匹配
href
内容的正则表达式一起使用:解析器不关心结构是否在变化,您只需要精确地知道什么是稳定的;链接。在
演示:
^{pr2}$相关问题 更多 >
编程相关推荐