a(jsonp)数据代理
dataprox的Python项目详细描述
数据代理:用于将数据代理为json(jsonp)格式的google应用程序引擎应用程序。
_ transform.py
每个模块都应该实现:
*`` transformer(flow,url,query)```,应该返回一个transformer子类
*transformer子类,该子类具有BR/> > BR/>现有模块:
BR/> BR/>随机注释< BR/> > BR/> BR/> Mount点
最大文件大小
BR/> HTTP://FROUTX.Excel。url=url编码&;sheet=1&;range=a1:k3&;doc=no&;indent=4&;format=jsonp
>响应格式:
header
url=http://.file.xls
option='row=5&;row=7&;row&;range=10:100000:5000',
>响应
sheet=sheet 1,
>data=[
,
,
,
,
,
,
,
,
,
>[…],
]
*下载整个电子表格
*下载单个工作表(将“sheet=1”添加到URL)
*在单个工作表中下载一个范围(将“range=a1:k3”添加到URL)[对于CSV文件有点讨厌,但我认为]
*在工作表中选择一组有限的行(将“row=5&row=7&;row_range=10:100000:5000``-rowrange格式将为我提供每5000行10到100000行之间的行)
障碍
----
*某些数据集不是基于文本的格式=>;在此阶段不处理它们
*Excel电子表格有格式,而不同类型的数据集有格式=>;忽略它,暂时将所有内容都转换为字符串
*有些数据集非常庞大=>;不代理超过10万个数据-如果需要,可由用户进行筛选
*我们不想重新下载数据集=>;需要缓存数据的方法->;存储API
*有些应用程序可能非常流行,给系统带来压力->;可能需要API密钥和速率限制,以便可以禁用单个应用程序/订阅源。我们怎样才能在data.gov.uk上读取api密钥?
_ transform.py
每个模块都应该实现:
*`` transformer(flow,url,query)```,应该返回一个transformer子类
*transformer子类,该子类具有BR/> > BR/>现有模块:
BR/> BR/>随机注释< BR/> > BR/> BR/> Mount点
最大文件大小
BR/> HTTP://FROUTX.Excel。url=url编码&;sheet=1&;range=a1:k3&;doc=no&;indent=4&;format=jsonp
>响应格式:
header
url=http://.file.xls
option='row=5&;row=7&;row&;range=10:100000:5000',
>响应
sheet=sheet 1,
>data=[
,
,
,
,
,
,
,
,
,
>[…],
]
*下载整个电子表格
*下载单个工作表(将“sheet=1”添加到URL)
*在单个工作表中下载一个范围(将“range=a1:k3”添加到URL)[对于CSV文件有点讨厌,但我认为]
*在工作表中选择一组有限的行(将“row=5&row=7&;row_range=10:100000:5000``-rowrange格式将为我提供每5000行10到100000行之间的行)
障碍
----
*某些数据集不是基于文本的格式=>;在此阶段不处理它们
*Excel电子表格有格式,而不同类型的数据集有格式=>;忽略它,暂时将所有内容都转换为字符串
*有些数据集非常庞大=>;不代理超过10万个数据-如果需要,可由用户进行筛选
*我们不想重新下载数据集=>;需要缓存数据的方法->;存储API
*有些应用程序可能非常流行,给系统带来压力->;可能需要API密钥和速率限制,以便可以禁用单个应用程序/订阅源。我们怎样才能在data.gov.uk上读取api密钥?