页面存在,但内容为404错误(希望使用Selenium获取图像)

2024-09-29 19:19:15 发布

您现在位置:Python中文网/ 问答频道 /正文

我想使用SeleniumWebDriver从this site下载图像

每天都会创建一个新页面,在这个新页面上,图像将在下午6点左右上传到该页面

url = 'http://covid-19.moh.gov.my/terkini/2021/06/situasi-terkini-covid-19-di-malaysia-24062021'
driver.get(url)
images = driver.find_elements_by_tag_name('img')

for image in images:
  print(image.get_attribute('src'))

当我运行代码时,即使在常规浏览器中看不到图像(下午6点之前),使用selenium我仍然可以获得这些图像URL的列表

# sample output from code
http://covid-19.moh.gov.my/terkini/2021/06/situasi-terkini-covid-19-di-malaysia-24062021/ukk-KlusterBaruHarian9.jpg
http://covid-19.moh.gov.my/terkini/2021/06/situasi-terkini-covid-19-di-malaysia-24062021/ukk-KlusterBaruHarian10.jpg
http://covid-19.moh.gov.my/terkini/2021/06/situasi-terkini-covid-19-di-malaysia-24062021/statskluster01.jpg
http://covid-19.moh.gov.my/terkini/2021/06/situasi-terkini-covid-19-di-malaysia-24062021/statskluster02.jpg
http://covid-19.moh.gov.my/terkini/2021/06/situasi-terkini-covid-19-di-malaysia-24062021/statskluster03.jpg
http://covid-19.moh.gov.my/terkini/2021/06/situasi-terkini-covid-19-di-malaysia-24062021/taburankes-all.jpg

img url存在,但图像显示为404错误。 enter image description here

我甚至可以在img url上使用wget进行下载,但结果是一个空的/损坏的img

有人能给我解释一下这些行为(我没有网络开发知识)以及如何绕过它吗?我只想下载图像时,只有它真的存在


Tags: 图像httpurlimgmydrivergovjpg
1条回答
网友
1楼 · 发布于 2024-09-29 19:19:15

这里有两个问题:

  1. 您正在使用的URL加载速度非常慢,甚至根本没有加载,这就是您出现404错误的原因
  2. 在执行images = driver.find_elements_by_tag_name('img')之前,必须先放置wait/delay,才能让页面完全加载。
    UPD
    如果在单击网页上的链接后出现错误404,则表示该链接已断开或存在其他服务器端问题。这不是由错误的Selenium代码引起的。只是那个网站有一些问题

相关问题 更多 >

    热门问题