我试图建立一个应用程序,我需要从几个网站的每日新闻饲料。一种方法是使用Python的BeautifulSoup库。不过,这是好的网页,他们的新闻在一个静态页面。在
让我们考虑一个类似http://www.techcrunch.com的站点。他们只有一个标题,更多的新闻你需要点击“阅读更多”。对于其他几家新闻网站来说,情况也差不多。如何提取这些信息并将其转储到一个文件-txt/.dmp或任何其他类型的文件中?我应该使用什么工具?在Python中我应该采取什么方法来实现这一点?在
我需要这个脚本自动下载新闻从几个网站每天一次,并存储在一个文件类别,如标题,日期,内容等。我会上传这个脚本在apache2服务器。有什么建议吗?在
您可以利用的工具是Selenuim作为其纯浏览器自动化或iMacros。在
相关问题 更多 >
编程相关推荐