使用Beautiful Soup获取URL

2024-10-01 09:20:36 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个网址,重定向(即HTTP 302)到实际的网站。我正在分析。不过,我想得到网站的实际网址(即真正的网址)。在BeautifulSoup有没有办法做到这一点。在

即www.bananas.com-重定向->;www.realfruit.com。它是www.realfruit.com网站我想以字符串形式获取的url。在


Tags: 字符串gtcomhttpurl网站www重定向
1条回答
网友
1楼 · 发布于 2024-10-01 09:20:36

HTML页面的URL是HTTP元数据,实际上与HTML源无关。BeautifulSoup被传递给HTML源代码(以文件对象或字符串的形式),而不是HTTP上下文。它不知道源头来自哪里。在

充其量,如果幸运的话,HTML源代码包含一个canonical URL ^{} tag,这是搜索引擎在试图再次将用户引导到同一页面时应该使用的URL。但这不一定是在将页面交给BeautifulSoup之前用来加载页面的实际URL!在

如果您使用requests来加载页面,那么只需向it请求URL。^{}告诉您从哪个URL加载响应。您可以使用^{}访问重定向历史记录,其中包含导致最终响应的任何30x响应。在

urllib2响应有一个^{} method,返回最终使用的URL;python3的^{} responses也是如此。在

相关问题 更多 >