HDX Python通用geonode scraper
hdx-scraper-geonode的Python项目详细描述
HDX Scraper Geonode库可以轻松构建用于提取数据的Scraper 从geonode服务器。在
使用
图书馆有详细的API文档,可以找到 这里:http://ocha-dap.github.io/hdx-scraper-geonode/。代码 图书馆在这里:https://github.com/ocha-dap/hdx-scraper-geonode。在
GeoNodeOhdx类
您应该创建GeoNodeToHDX类的对象:
geonodetohdx = GeoNodeToHDX('https://geonode.wfp.org', downloader)
geonodetohdx = GeoNodeToHDX('https://geonode.themimu.info', downloader)
它有高级方法生成数据集 删除其他\u数据集:
^{pr2}$如果您需要更细粒度的控制,它有低级方法 获取位置数据、获取图层数据、生成数据集和展示:
# get countries where count > 0
countries = geonodetohdx.get_countries(use_count=True)
# get layers for country with ISO 3 code SDN
layers = geonodetohdx.get_layers(countryiso='SDN')
# get layers for all countries
layers = get_layers(countryiso=None)
将忽略和默认项。这些可以通过 使用以下格式的新配置创建YAML配置:
ignore_data:
- deprecated
category_mapping:
Elevation: 'elevation - topography - altitude'
'Inland Waters': river
titleabstract_mapping:
bridges:
- bridges
- transportation
- 'facilities and infrastructure'
idp:
camp:
- 'displaced persons locations - camps - shelters'
- 'internally displaced persons - idp'
else:
- 'internally displaced persons - idp'
ignore_data是抽象中表示数据集的任何术语 不应添加到HDX。在
类别映射是类别字段category\u gnu description的映射 到HDX元数据标记。在
titleabstract_映射是从标题或摘要中的术语到 HDX元数据标记。在
为您检索更细粒度的字典 直接操纵它们:
geonodetohdx = GeoNodeToHDX('https://geonode.wfp.org', downloader)
ignore_data = geonodetohdx.get_ignore_data()
category_mapping = geonodetohdx.get_category_mapping()
titleabstract_mapping = geonodetohdx.get_titleabstract_mapping()
- 项目
标签: