从中的URL获取所有数据的代码请求。获取不工作-它只检索一页的数据(30条记录)。如何修改代码以确保从所有页面获取数据?你知道吗
NAEYCData = requests.get('http://families.naeyc.org/search_programs/results/0/NJ/0/100/0/0/0/us/0?page=')
openFile = open('NAEYCData', 'wb')
for chunk in NAEYCData.iter_content(100000):
openFile.write(chunk)
实际页面一次只提供30个结果。随后的每个页面都使用不同的参数来访问URL中的
page
(第一个页面是page=0
,第二个页面是page=1
,等等)。你知道吗您可以单独下载每个页面,但坦率地说,更好的解决方案(对于您和他们的服务器)可能是下载您试图获取的the CSV linked to on the search results page,它包含与单个CSV文件结构相同的信息,需要较少的连接和较少的带宽来传输,而且easy to parse programmatically(通常比HTML更简单,而且比解析9个单独的HTML页面并将结果粘在一起要容易得多)。你知道吗
相关问题 更多 >
编程相关推荐