用scrapy从rss抓取新闻网站

<item> <title> White House Signals Acceptance of Russia Sanctions Bill </title> <link> https://www.nytimes.com/2017/07/23/us/politics/trump-russia- sanctions.html?partner=rss&emc=rss </link> <pubDate>Sun, 23 Jul 2017 23:26:41 GMT</pubDate> </item> <item> <title> News Analysis: For Trump and Putin, Sanctions Are a Setback Both Sought to Avoid </title> <link> https://www.nytimes.com/2017/07/23/world/europe/trump-putin- sanctions-hacking.html?partner=rss&emc=rss </link> <pubDate>Mon, 24 Jul 2017 00:35:14 GMT</pubDate> </item>

1条回答

网友

1楼 · 发布于 2024-09-27 22:23:37

是的，你可以用刮痧来达到这个目的。有两种方法可以用来构建解决方案：

从设计用于解析XML提要的^{}开始。在提供的链接中有一个简单的例子。在
要跟踪到各个文章的链接，从中提取一些数据并将其添加到从XML提要提取的数据中，请使用requests chaining的概念。在
你没有具体说明我还没读到的项目应该如何实现。如果您的意思是不返回在以前的运行中已经刮取的项，可以使用^{}包。在

现在你只需要把这些碎片拼在一起。在

相关问题更多 >

编程相关推荐

热门问题

热门文章