2024-10-01 09:20:36 发布
网友
我有一个网址,重定向(即HTTP 302)到实际的网站。我正在分析。不过,我想得到网站的实际网址(即真正的网址)。在BeautifulSoup有没有办法做到这一点。在
即www.bananas.com-重定向->;www.realfruit.com。它是www.realfruit.com网站我想以字符串形式获取的url。在
HTML页面的URL是HTTP元数据,实际上与HTML源无关。BeautifulSoup被传递给HTML源代码(以文件对象或字符串的形式),而不是HTTP上下文。它不知道源头来自哪里。在
充其量,如果幸运的话,HTML源代码包含一个canonical URL ^{} tag,这是搜索引擎在试图再次将用户引导到同一页面时应该使用的URL。但这不一定是在将页面交给BeautifulSoup之前用来加载页面的实际URL!在
如果您使用requests来加载页面,那么只需向it请求URL。^{}告诉您从哪个URL加载响应。您可以使用^{}访问重定向历史记录,其中包含导致最终响应的任何30x响应。在
requests
urllib2响应有一个^{} method,返回最终使用的URL;python3的^{} responses也是如此。在
urllib2
HTML页面的URL是HTTP元数据,实际上与HTML源无关。BeautifulSoup被传递给HTML源代码(以文件对象或字符串的形式),而不是HTTP上下文。它不知道源头来自哪里。在
充其量,如果幸运的话,HTML源代码包含一个canonical URL ^{} tag ,这是搜索引擎在试图再次将用户引导到同一页面时应该使用的URL。但这不一定是在将页面交给BeautifulSoup之前用来加载页面的实际URL!在
如果您使用} 告诉您从哪个URL加载响应。您可以使用^{} 访问重定向历史记录,其中包含导致最终响应的任何30x响应。在
requests
来加载页面,那么只需向it请求URL。^{urllib2
响应有一个^{相关问题 更多 >
编程相关推荐