我运行的是Windows10和Jupyter笔记本电脑版本4.0.6,Python 2.7.10和Anaconda 2.4.0(64位)
我正在关注https://jakevdp.github.io/blog/2015/08/14/out-of-core-dataframes-in-python/上的博客/教程:
from dask import dataframe as dd
columns = ["name", "amenity", "Longitude", "Latitude"]
data = dd.read_csv("POIWorld.csv", usecols=columns)
with_name = data[data.name.notnull()]
with_amenity = data[data.amenity.notnull()]
is_starbucks = with_name.name.str.contains('[Ss]tarbucks')
is_dunkin = with_name.name.str.contains('[Dd]unkin')
starbucks = with_name[is_starbucks]
dunkin = with_name[is_dunkin]
dd.compute(starbucks.name.count(), dunkin.name.count())
最后一条语句导致在运行Jupyter的命令提示符会话中出现错误,如下所示:
Fatal Python error: GC object already tracked
读到类似的问题这可能是dask处理Python处理内存的源代码中的一个可能的问题,我希望我只是遗漏了一些东西。在
在本教程中,我曾遇到过头文件和dask文件的问题,必须运行:
^{pr2}$类似的问题也无济于事:
Pandas的某些版本不能很好地处理多线程,尤其是对于
pandas.read_csv
。这些问题在最新版本的Pandas中得到了修复,因此这个问题可能可以通过以下方法之一解决:相关问题 更多 >
编程相关推荐