如何在爬网时检查“未更改”的文件?

2024-06-25 06:36:03 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试构建一个爬虫程序,它可以索引.deb文件,还可以解析内部结构并提取一些元信息。你知道吗

现在,我想以尽可能低的成本做到这一点,但也要尽可能频繁(可能每5-6小时一次)。所以我想确保我不下载文件是不变的。你知道吗

也许我在这里遗漏了一些东西,但是如何在不下载文件的情况下检查文件是否保持不变?你知道吗


Tags: 文件程序信息情况deb爬虫成本小时
1条回答
网友
1楼 · 发布于 2024-06-25 06:36:03

下载元数据(目录列表),它会给你时间戳,文件大小等,用它来确定文件是否已更改。如果可用,还可以检查MD5散列。确定文件已更改后,可以将其标记为下载。你知道吗

web浏览器也使用类似的策略来确定资产是否已更改。甚至电子邮件客户端也使用类似的策略,尤其是在手持设备上。他们首先只下载邮件头。如果用户想阅读邮件,则下载正文。你知道吗

相关问题 更多 >