我一直在做一些调查,以找到一个软件包安装和使用的地理空间分析
最接近我的是https://github.com/harsha2010/magellan-但是它只有scala接口,没有doco如何在Python中使用它。在
我希望有人知道我可以用的包裹吗?在
我要做的是分析Uber的数据,并将其映射到实际的邮政编码/郊区,然后通过SGD运行它来预测到特定郊区的出行次数。在
这里已经有很多数据信息-http://hortonworks.com/blog/magellan-geospatial-analytics-in-spark/#comment-606532,我正在寻找用Python实现的方法。在
在Python中,我将查看GeoPandas。它提供了一个名为GeoDataFrame的数据结构:它是一个特性列表,每个特性都有一个几何体和一些可选属性。可以基于几何体相交将两个geodataframe连接在一起,并且可以在单个几何体(例如,邮政编码)内聚合行数(例如,行程)。在
joined_dataframe.groupby('postcode').count()
。在我对上述过程的担心是,如果你有几十万个非常复杂的旅行几何图形,在一台机器上可能要花上一辈子的时间。你发布的链接使用的是Spark,你可能最终还是想把它并行化。您可以针对Spark集群编写Python(!)但我不是帮你做这个部件的人。在
最后,对于预测组件(例如SGD),请查看scikit-learn:这是一个功能非常齐全的机器学习包,有一个非常简单的API。在
[1]:有一个单独的包geopandas_osm,它获取osm数据并返回GeoDataFrame:https://michelleful.github.io/code-blog/2015/04/27/osm-data/
我知道这是一个老问题,但要建立在杰夫·G的答案上。在
如果您来到这个页面寻求帮助,在python中组合一套地理空间分析工具-我强烈推荐本教程。在
https://geohackweek.github.io/vector
它在第三节真的很火。在
它展示了如何整合
再加上scikit learn、numpy和scipy,你真的可以完成很多。您也可以从这个nDarray tutorial获取信息
相关问题 更多 >
编程相关推荐