我从哪里开始用python制作刮刀或机器人?

2024-09-28 22:21:01 发布

您现在位置:Python中文网/ 问答频道 /正文

我对编程语言(python)并不陌生,但我不知道从哪里开始使用python?制作bot或scraper?。我应该学习cgi编程吗?或者scraper仅仅使用python脚本运行?我应该为此建立一个服务器吗?对此毫无头绪。。。谢谢你的帮助


Tags: 服务器脚本bot编程scraper编程语言cgi陌生
3条回答

如果您试图访问大量使用JavaScript的网站,总体而言,Selenium可能更容易。在

Selenium是一个控制服务器上实际的web浏览器的服务器,以及一个客户端库(包括Python端口),它允许您控制浏览器并检查其中的页面。在

预先配置(并确定)服务器和客户端库(并确保您的系统上有一个可以正常工作的浏览器)的开销肯定会更大,但是如果网站使用JavaScript做了很多事情,那么实际的抓取代码就不会那么麻烦了。在

屏幕抓取包括许多正则表达式来获得所需的精确数据。你还想知道你想分析什么样的数据以及你想如何存储它。在

要获得页面,您需要使用urllib(或urllib2)和正则表达式(re)之类的库,或者使用一个好的脚本is beautifulsoup来完成您的脏工作(http://www.crummy.com/software/BeautifulSoup/

如果你想建立一个纯粹的机器人来做搜索引擎所做的事情,你还必须建立一个足够聪明的机器人来知道你不会一直ping同一个域(导致DOS攻击)。在

相关问题 更多 >