获取完全相同的rss表单

2条回答

网友

1楼 · 编辑于 2024-07-07 06:30:02

我最近用feed解析器库做了一些项目，由于许多rss提要是不同的，这可能会非常令人沮丧。对我来说最有效的是这样的：在

#to get posts from hackaday.com
import feedparser
feed = feedparser.parse("http://www.hackaday.com/blog/feed/") #get feed from hackaday
feed = feed['items'] #Get items in feed (this is the best way I've found)
print feed[0]['title'] #print post title
print feed[0]['summary'] #print post summary
print feed[0]['published'] #print date published

这些只是feed解析器拥有的几个不同的“字段”。要找到所需的命令，只需在pythonshell中运行这些命令，看看哪些命令适合您的需要。在

网友

2楼 · 编辑于 2024-07-07 06:30:02

您可以使用feedparser来知道一个网站是否有atom或rss，然后分别处理它们类型。如果网站没有发布日期或标题，您可以使用其他库（如goose extractor）提取它们（例如：

from newspaper import Article
import feedparser

def extract_date(url):
    article = Article(url)
    article.download()
    article.parse()
    date=article.publish_date
    return date

d=feedparser.parse("http://feeds.feedburner.com/webnewsit") #an italian website
d.entries[0] # the last entry
try :
    d.entries[0].published
except AttributeError:
    link_last_entry=d.entries[0].link
    publish_date=extract_date(link_last_entry)

如果你还不知道出版日期就告诉我

相关问题更多 >

编程相关推荐

热门问题

热门文章

获取完全相同的rss表单

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >