我有一点问题,尝试网络抓取以下网站:
http://apps.fas.usda.gov/psdonline/psdquery.aspx
问题是它是frames、aspx和javascript的组合。在
我曾尝试使用stackoverflow上的各种示例作为扶手,但无法使其工作。到目前为止,我有这个至少打印出了正确的表格框架。在
import mechanize
url = 'http://apps.fas.usda.gov/psdonline/psdQueryFrameDisplay.aspx'
# url = 'http://apps.fas.usda.gov/psdonline/psdResult.aspx'
br = mechanize.Browser()
br.set_handle_robots(False)
br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]
br.open(url)
response = br.response().read()
print response
我需要输入不同的值,但以“小麦”、“产量”、“所有国家”、“2013”为起点
然后单击“运行查询”。在
这会产生一个很长的网页,然后我想把它解析成一个数据帧。最后一步是相对直接的,如果我可以导航到aspx和JS到达这里。在
目前没有回答
相关问题 更多 >
编程相关推荐