使用Beautiful Soup获取URL - 问答 - Python中文网

使用Beautiful Soup获取URL

2024-10-01 09:20:36 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我有一个网址，重定向（即HTTP 302）到实际的网站。我正在分析。不过，我想得到网站的实际网址（即真正的网址）。在BeautifulSoup有没有办法做到这一点。在

即www.bananas.com-重定向->；www.realfruit.com。它是www.realfruit.com网站我想以字符串形式获取的url。在

Tags：字符串 gt com http url 网站 www 重定向

1条回答

网友

1楼 · 发布于 2024-10-01 09:20:36

HTML页面的URL是HTTP元数据，实际上与HTML源无关。BeautifulSoup被传递给HTML源代码（以文件对象或字符串的形式），而不是HTTP上下文。它不知道源头来自哪里。在

充其量，如果幸运的话，HTML源代码包含一个canonical URL ^{} tag，这是搜索引擎在试图再次将用户引导到同一页面时应该使用的URL。但这不一定是在将页面交给BeautifulSoup之前用来加载页面的实际URL！在

如果您使用requests来加载页面，那么只需向it请求URL。^{}告诉您从哪个URL加载响应。您可以使用^{}访问重定向历史记录，其中包含导致最终响应的任何30x响应。在

urllib2响应有一个^{} method，返回最终使用的URL；python3的^{} responses也是如此。在

相关问题更多 >

编程相关推荐

热门问题

热门文章