所以我想搜集一个网站的数据。我在python脚本中使用了selenium来刮取数据。但我注意到,在GoogleChromeInspect的网络部分,Chrome可以记录XmlHttpRequest以查找网站的json/xml文件。所以我想知道我是否可以在python脚本中直接使用这些数据,因为selenium非常重,需要更多的带宽。是否应使用selenium或其他web刮板工具作为与浏览器通信的媒介?如果没有,请给出一些关于仅使用chrome本身来为我的python文件刮取数据的信息
Tags:
当然!查看
requests
模块。从那里您可以访问页面源,并使用其中的数据分别访问不同的方面。这里有一些要考虑的事情:
优点:
缺点:
与
Selenium
相比,更难进入,需要 对HTML的GET
和POST
以及库的基本知识 像re
或BeautifulSoup
来提取数据对于包含javascript生成数据的页面,具体取决于 javascript被实现(或模糊化),尽管总是可能的, 提取想要的数据可能非常困难
结论:
我建议你一定要学习
requests
,并在大多数情况下使用它;但是,如果javascript变得太复杂,那么切换到selenium以获得更简单的解决方案。在线查找一些教程,然后查看official page以了解您所学内容的概述相关问题 更多 >
编程相关推荐