如何下载网站中所有可用的数据文件夹？

2024-09-30 01:32:47 发布

您现在位置：Python中文网/ 问答频道 /正文

3531

网友

男 | 程序猿一只，喜欢编程写python代码。

一般来说，如果一个网站显示一系列指向包含文件夹的数据的链接（即包含经济数据的电子表格），我如何编写一个识别所有链接并下载数据的程序？你知道吗

特别是，我正在尝试下载这个网站https://www.ngdc.noaa.gov/eog/viirs/download_dnb_composites.html中从2012年到2018年的所有文件夹

我尝试了下面建议的方法，但是似乎没有下载到数据的链接。你知道吗

my_target='https://www.ngdc.noaa.gov/eog/viirs/download_dnb_composites.html'


import requests
from bs4 import BeautifulSoup

r  = requests.get(my_target)
data = r.text
soup = BeautifulSoup(data)

links=[]
for link in soup.find_all('a'):
    links.append(link.get('href'))
    print(link.get('href'))

在所有附加到链接的URL中，没有一个指向数据。你知道吗

最后，即使我有了正确的链接，如何使用它们来实际下载文件？你知道吗

非常感谢！；）

Tags：数据 https 文件夹 get 网站链接 download www

1条回答

网友

1楼 · 发布于 2024-09-30 01:32:47

这是一个典型的网页抓取任务。你知道吗

使用requests下载页面
然后使用beutifulsoup解析内容并提取url
现在，您可以使用提取的URL和requests

如何下载网站中所有可用的数据文件夹？

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何下载网站中所有可用的数据文件夹？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >