使用Python下载RSS

2024-10-01 00:27:08 发布

您现在位置:Python中文网/ 问答频道 /正文

我有200个rss提要的列表,我必须下载。这是一个连续的过程-我必须下载每一篇文章,没有什么可以错过,但也没有重复。所以,最佳实践应该是记住feed的最后一次更新,并在x小时间隔内对其进行控制?如何处理下载程序是否会重新启动?所以下载者应该记住,下载了什么,不要再下载了。。。在

它已经在某个地方实现了吗?或者对文章有什么建议吗?谢谢


Tags: 程序列表间隔过程feed地方文章建议
2条回答

您可以使用feedparser解析提要,并将每个提要的最大发布时间存储在数据库中。在

对于简单的数据库,可以使用shelve。在

通常情况下,您希望这样做:

  • 定期获取提要并使用universal feedparser解析它们,并将条目存储在某个地方。在
  • 在获取提要时使用etag和IfModified头,以避免解析自上次获取以来没有更改的提要。您必须维护在上次获取提要期间接收到的etag和Ifmodified值。在
  • 为了避免重复,每个条目都应该用其唯一的guid存储,然后检查是否已经存储了具有相同guid的条目。(在没有guid的情况下,通过entry_link、title散列和feed url来唯一标识条目)

相关问题 更多 >