用scrapy从rss抓取新闻网站

2024-09-27 22:23:37 发布

您现在位置:Python中文网/ 问答频道 /正文

我想读一些新闻网站,例如rss提要纽约时报网rss:

<item>
    <title>
        White House Signals Acceptance of Russia Sanctions Bill
    </title>
    <link>
        https://www.nytimes.com/2017/07/23/us/politics/trump-russia-
        sanctions.html?partner=rss&emc=rss
    </link>
    <pubDate>Sun, 23 Jul 2017 23:26:41 GMT</pubDate>
</item>
<item>
    <title>
        News Analysis: For Trump and Putin, Sanctions Are a Setback 
        Both Sought to Avoid
    </title>
    <link>
        https://www.nytimes.com/2017/07/23/world/europe/trump-putin-
        sanctions-hacking.html?partner=rss&emc=rss
    </link>
    <pubDate>Mon, 24 Jul 2017 00:35:14 GMT</pubDate>
</item>

找到我还没读过的新项目,并为每个项目存储链接,标题和获取链接抓取它的一些内容。 我的问题是我能用scrapy来达到这个目的吗?如果可以,怎么用?在


Tags: httpscompartnertitlehtmlwwwlinkitem
1条回答
网友
1楼 · 发布于 2024-09-27 22:23:37

是的,你可以用刮痧来达到这个目的。有两种方法可以用来构建解决方案:

  • 从设计用于解析XML提要的^{}开始。在提供的链接中有一个简单的例子。在
  • 要跟踪到各个文章的链接,从中提取一些数据并将其添加到从XML提要提取的数据中,请使用requests chaining的概念。在
  • 你没有具体说明我还没读到的项目应该如何实现。如果您的意思是不返回在以前的运行中已经刮取的项,可以使用^{}包。在

现在你只需要把这些碎片拼在一起。在

相关问题 更多 >

    热门问题