第一个问题,所以对我放松点
我正在尝试使用python以编程方式从网站下载所有excel文件。我对网络垃圾很陌生,所以我的代码可能不符合要求——我已经在下面介绍了。当我运行脚本时,我没有看到任何输出,而且我想要下载的文件也找不到
不确定我做错了什么,或者我是否运行了错误的脚本。我正在通过anaconda navigator运行它,使用脚本导航到目录,然后使用以下命令运行它:
python file-scraper.py
这是我脚本的代码。任何帮助或建议都将不胜感激
from bs4 import BeautifulSoup as bs
import requests
DOMAIN = 'https://lfportal.loudoun.gov/LFPortalinternet/'
URL = 'https://lfportal.loudoun.gov/LFPortalinternet/Browse.aspx?startid=213973&row=1&dbid=0'
FILETYPE = '.xls'
def get_soup(url):
return bs(requests.get(url).text, 'html.parser')
for link in get_soup(URL).find_all('a'):
file_link = link.get('href')
if FILETYPE in file_link:
print(file_link)
with open(link.text, 'wb') as file:
response = requests.get(DOMAIN + file_link)
file.write(response.content)
您有一个最常见的问题-浏览器使用
JavaScript
向页面添加链接(当您单击年份时),但requests
/beatifulsoup
无法运行JavaScript
您必须关闭浏览器中的
JavaScript
,并检查是否可以在不使用JavaScript
的情况下在浏览器中获取文件。然后你必须看看它是如何工作的,并在代码中做同样的事情。但有时它可能需要Selenium来控制可以运行JavaScript
的真实浏览器当我在浏览器中打开不带
JavaScript
的URL时,我看不到任何.xls
。我必须单击year
,然后它用.xls
加载不同的URL2017年:https://lfportal.loudoun.gov/LFPortalinternet/0/fol/213974/Row1.aspx
2018年:https://lfportal.loudoun.gov/LFPortalinternet/0/fol/285051/Row1.aspx
2019年:https://lfportal.loudoun.gov/LFPortalinternet/0/fol/312510/Row1.aspx
2020年:https://lfportal.loudoun.gov/LFPortalinternet/0/fol/384496/Row1.aspx
2021年:https://lfportal.loudoun.gov/LFPortalinternet/0/fol/466963/Row1.aspx
您必须使用
beautifulsoup
查找这些URL,并使用requests
加载它们,然后您应该搜索.xls
编辑:
代码搜索子页面并使用它们下载文件
它每年下载到单独的文件夹
顺便说一句:我把它放在GitHub上了furas/python-examples
您的网页只包含文件夹,作为一个人,您必须单击这些文件夹才能获取文件
使用BS,您必须获取文件夹的链接,然后请求它们获取文件列表
简化您的案例的是,文件夹和文件都具有类属性DocumentBrowserNameLink
您可以使用一个函数来查找它们
相关问题 更多 >
编程相关推荐