如何用python查找网站的反向链接

2条回答

网友

1楼 · 编辑于 2024-10-01 09:38:27

下面是一个匹配http页面的regexp，但如果包括google，则不匹配：

re.compile("(?!.*google)^http://(www.)?.*")

网友

2楼 · 编辑于 2024-10-01 09:38:27

from BeautifulSoup import BeautifulSoup
import re

html = """
<div>hello</div>
<a href="/index.html">Not this one</a>"
<a href="http://google.com">Link 1</a>
<a href="http:/amazon.com">Link 2</a>
"""

def processor(tag):
    href = tag.get('href')
    if not href: return False
    return True if (href.find("google") == -1) else False

soup = BeautifulSoup(html)
back_links = soup.findAll(processor, href=re.compile(r"^http"))
print back_links

 output: 
[<a href="http:/amazon.com">Link 2</a>]

然而，只需获取以http开头的所有链接，然后在这些链接中搜索href中没有“google”的链接可能更有效：

^{pr2}$

编程相关推荐

bash杀戮屏幕但java进程未结束
java Spring批处理回滚项
java Android材质设计工具栏未在活动\u main中正确显示。xml
java“%sR”中的R在字符串中做什么。格式（）
java UCanaAccess异常“不支持的更新版本：5”
通过https连接到专用ip时出现java“不存在主题替代名称”错误
java有人能解释一下这种移位/长时间修补输出吗？
java识别从forloop创建的数组中的对象
JavaPostXML文件
为什么逗号（，）不会导致编译错误？

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何用python查找网站的反向链接

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >