如何使用Python每天从网上抓取一次每日新闻?

2024-09-23 04:29:08 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图建立一个应用程序,我需要从几个网站的每日新闻饲料。一种方法是使用Python的BeautifulSoup库。不过,这是好的网页,他们的新闻在一个静态页面。在

让我们考虑一个类似http://www.techcrunch.com的站点。他们只有一个标题,更多的新闻你需要点击“阅读更多”。对于其他几家新闻网站来说,情况也差不多。如何提取这些信息并将其转储到一个文件-txt/.dmp或任何其他类型的文件中?我应该使用什么工具?在Python中我应该采取什么方法来实现这一点?在

我需要这个脚本自动下载新闻从几个网站每天一次,并存储在一个文件类别,如标题,日期,内容等。我会上传这个脚本在apache2服务器。有什么建议吗?在


Tags: 文件方法脚本应用程序http网页标题网站
1条回答
网友
1楼 · 发布于 2024-09-23 04:29:08

How do I extract such information and dump it in a file- txt/.dmp or any other kind of file? What tool should I use?

for more news you need to click on "Read more".

您可以利用的工具是Selenuim作为其纯浏览器自动化或iMacros。在

  1. Here是在Python服务器端利用Selenium的一个例子。在
  2. Here是关于使用iMacros进行数据提取的帖子(和视频)。因为你每天只需要一次,所以你可以安排在Win或Mac中定期运行它。在

相关问题 更多 >