如何在Python BeautifulSoup中抓取网站中的每个页面

2条回答

网友

1楼 · 编辑于 2024-10-02 18:18:05

最简单的方法是首先从网站获取页面。这可以通过以下方式实现：

url = 'https://gogo.mn/'
response = requests.get(url)

然后，页面包含在响应变量中，您可以通过查看response.text来检查该变量

现在使用BeautifulSoup查找页面上包含的所有链接：

a_links = html.find_all('a')

这将返回一个bs4.element.ResultSet类型，该类型可以使用for循环进行迭代。查看您的特定站点，我发现它们的许多链接中都不包含baseURL，因此必须对URL进行一些规范化

for link in a_links:
    if ('https' in link['href']) or ('http' in link['href']):
        print (link['href'])
    else:
        xLink = link['href'][1:]
        print (f'{url}{xLink}')

一旦你做到了这一点，你就拥有了给定页面的所有链接。然后，您需要消除重复项，并为每个页面运行新页面上的链接。这将涉及递归地遍历您找到的所有链接

问候

网友

2楼 · 编辑于 2024-10-02 18:18:05

我没有用刮痧。但要仅使用request和BeautifulSoup获取所有内容，您需要找到网站的索引页（有时是存档或搜索结果），保存所有页面的URL，循环浏览URL，并保存页面内容

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何在Python BeautifulSoup中抓取网站中的每个页面

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >