一个（大概是基本的）网页抓取http://www.ssa.gov/cgibin/popularnames.cgi在urllib中

网友

1楼 · 编辑于 2024-09-28 20:17:59

我建议使用mechanize之类的工具。这将允许您使用python以编程方式导航web页面。有很多关于如何使用这个的教程。基本上，你想在mechanize中做的和在浏览器中做的一样：填充文本框，点击“Go”按钮，解析你从响应中得到的网页。在

网友

2楼 · 编辑于 2024-09-28 20:17:59

您仍然可以使用urllib。该按钮执行对当前url的发布。使用Firefox的Firebug我查看了网络流量，发现它们发送了3个参数：member，top，和{}。您可以发送相同的参数：

import urllib
url = 'http://www.ssa.gov/cgi-bin/popularnames.cgi'

post_params = { # member was blank, so I'm excluding it.
    'top'  : '25',
    'year' : year
    }
post_args = urllib.urlencode(post_params)

现在，只需发送url编码的参数：

^{pr2}$

如果您还需要发送邮件头：

headers = {
    'Accept' : 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Accept-Language' : 'en-US,en;q=0.5',
    'Connection' : 'keep-alive',
    'Host' : 'www.ssa.gov',
    'Referer' : 'http://www.ssa.gov/cgi-bin/popularnames.cgi',
    'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:21.0) Gecko/20100101 Firefox/21.0'
    }

# With POST data:
urllib.urlopen(url, post_args, headers)

在循环中执行代码：

for year in xrange(1880, 2014):
    # The above code...

网友

3楼 · 编辑于 2024-09-28 20:17:59

我建议使用Scrapy。这是一个非常强大和易于使用的网页抓取工具。值得尝试的原因：

速度/性能/效率
Scrapy is written with Twisted, a popular event-driven networking framework for Python. Thus, it’s implemented using a non-blocking (aka asynchronous) code for concurrency.
数据库流水线
Scrapy具有Item Pipelines功能：
After an item has been scraped by a spider, it is sent to the Item Pipeline which process it through several components that are executed sequentially.
因此，每一页都可以在下载后立即写入数据库。
代码组织
Scrapy为你提供了一个很好的清晰的项目结构，在那里你有设置，蜘蛛，项目，管道等逻辑分离。即便如此，你的代码也会更清晰、更易于支持和理解。
编码时间到了
Scrapy在幕后为你做了很多工作。这将使您专注于实际的代码和逻辑本身，而不是考虑“金属”部分：创建进程、线程等。

是的，你懂的-我喜欢。在

为了开始：

希望有帮助。在

相关问题更多 >

编程相关推荐

热门问题

热门文章

一个（大概是基本的）网页抓取http://www.ssa.gov/cgibin/popularnames.cgi在urllib中

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >