Python。从谷歌搜索结果中仅获取href链接内容

2024-09-28 17:04:57 发布

男 | 程序猿一只，喜欢编程写python代码。

我如何得到作为输出的链接列表只？我尝试过其他的解决方案，包括beauthulsoup和selenium，但它们仍然给我一个非常相似的结果，我现在得到的是链接和锚文本的href。我尝试使用urlparse，就像一些旧的答案所建议的那样，但是似乎这个模块已经不再使用了，我对整个事情都很困惑。这是我的代码，目前正在输出链接和锚文本，这不是我想要的：

import requests, re
from bs4 import BeautifulSoup
headers = {'User-agent':'Mozilla/5.0'}
page = requests.get('https://www.google.com/search?q=Tesla',headers=headers)
soup = BeautifulSoup(page.content,'lxml')
global serpUrls
serpUrls = []
links = soup.findAll('a')
for link in soup.find_all("a",href=re.compile("(?<=/url\?q=)(htt.*://.*)")):
    #print(re.split(":(?=http)",link["href"].replace("/url?q=","")))
    serpUrls.append(link)

print(serpUrls[0:2])

xmasRegex = re.compile(r"""((?:[a-z][\w-]+:(?:/{1,3}|[a-z0-9%])|www\d{0,3}[.]|[a-z0-9.\-]+[.‌][a-z]{2,4}/)(?:[^\s()<>]+|(([^\s()<>]+|(([^\s()<>]+)))*))+(?:(([^\s()<>]+|(‌([^\s()<>]+)))*)|[^\s`!()[]{};:'".,<>?«»“”‘’]))""", re.DOTALL)
mo = xmasRegex.findall('[<a href="/url?q=https://www.teslamotors.com/&amp;sa=U&amp;ved=0ahUKEwjvzrTyxvTKAhXHWRoKHUjlBxwQFggUMAA&amp;usg=AFQjCNG1nvN_Z0knKTtEah3whTIObUAhcg"><b>Tesla</b> Motors | Premium Electric Vehicles</a>, <a class="_Zkb" href="/url?q=http://webcache.googleusercontent.com/search%3Fq%3Dcache:rzPQodkDKYYJ:https://www.teslamotors.com/%252BTesla%26gws_rd%3Dcr%26hl%3Des%26%26ct%3Dclnk&amp;sa=U&amp;ved=0ahUKEwjvzrTyxvTKAhXHWRoKHUjlBxwQIAgXMAA&amp;usg=AFQjCNEZ40VWO_fFDjXH09GakUOgODNlHg">En caché</a>]')
print(mo)

我只想要“http://urloflink.com”，而不是整行代码。有办法吗？谢谢！在

输出如下：

^{pr2}$

Tags： https 文本 re com http url 链接 www

1条回答

网友

1楼 · 发布于 2024-09-28 17:04:57

永远不要解析HTML。在

如果正确地执行findall，您应该能够访问每个结果的href属性。在

Python。从谷歌搜索结果中仅获取href链接内容

相关问题更多 >

编程相关推荐

热门问题

热门文章

Python。从谷歌搜索结果中仅获取href链接内容

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >