我试图从长数据集中只清除一列。数据有18列,超过10k+行,大约有100s个csv文件,我只想清理其中的一列。在
长列表中只有几个输入字段
userLocation, userTimezone, Coordinates,
India, Hawaii, {u'type': u'Point', u'coordinates': [73.8567, 18.5203]}
California, USA
, New Delhi,
Ft. Sam Houston,Mountain Time (US & Canada),{u'type': u'Point', u'coordinates': [86.99643, 23.68088]}
Kathmandu,Nepal, Kathmandu, {u'type': u'Point', u'coordinates': [85.3248024, 27.69765658]}
完整输入文件:Dropbox link
代码:
^{pr2}$其他列要像输出一样写入。之后怎么办?在
输出:
userLocation, userTimezone, Coordinate_one, Coordinate_one,
India, Hawaii, 73.8567, 18.5203
California, USA
, New Delhi,
Ft. Sam Houston,Mountain Time (US & Canada),86.99643, 23.68088
Kathmandu,Nepal, Kathmandu, 85.3248024, 27.69765658
可能最简单的建议或指导我举一些例子会很有帮助。在
这里有很多问题。在
data = pd.read_csv('input.csv')
无法正确解析。在json
字符串这就是我目前所做的。您需要自己做一些工作来更恰当地解析这个文件
10K行看起来根本不像大数据。你有几列?在
我不明白,你的代码很容易被破坏:
如果你的数据不适合内存,你可以考虑使用Dask。在
相关问题 更多 >
编程相关推荐