pyarrow导致python在parquet.d上崩溃错误

2024-09-27 04:24:39 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个获取数据的脚本,并将数据存储在Pandas dataframe中。在

我对数据进行了3次聚合,MEAN/STDEV/MAX,每一个都被转换成一个arrow表,并作为parquet文件保存在磁盘上。在

我使用pyarrow将Pandas框架转换为Arrow表。(我无法创建pyarrow标记,因为我显然需要更多的点)

这个代码对于100-500个记录来说工作得很好,但是对于更大的容量则会出错。我也知道这段代码是有效的,因为另一个开发人员在镜像机器上使用相同的代码(就硬件而言),而且它可以工作。 我要保存的数据集的顺序是数百万。在

代码出错了@linepq.写入表(箭头表,文件路径)。在

代码如下:

arrowTable = pa.Table.from_pandas(self.grpByMeanDS2)

begintime = datetime.now()
begintime_str = begintime.strftime("%Y%m%d%I%M%S")      

filePath = SaveFileLoc + "\\Raw\\" + agg + "Data" + begintime_str + ".parq"

print('Begin Saving File')
pq.write_table(arrowTable, filePath)
print('Done Saving File')

print('appending FilePath to List')
self.listspDF.append(filePath)
print('Done Appending FilePath to List')

Python崩溃并抛出一个“Python必须关闭错误”。在

具体错误如下:

问题事件名称:APPCRASH 应用程序名称:python.exe 应用版本:3.5.2150.1013 申请时间戳:577be340 故障模块名称:拼花地板.dll 故障模块版本:0.0.0.0 故障模块时间戳:59403662 例外代码:c0000005 异常偏移量:000000000005f990 操作系统版本:6.3.9600.2.0.0.400.8 区域设置ID:1033

在线阅读我们的隐私声明: http://go.microsoft.com/fwlink/?linkid=280262

如果在线隐私声明不可用,请脱机阅读我们的隐私声明: C: \Windows\system32\en美国\电子地图.txt在


我尝试过更新Python和pyarrow,但没有成功。在

以下是python的版本:

^{pr2}$

以下是pip冻结的结果:

alabaster==0.7.9
anaconda-clean==1.0
anaconda-client==1.5.1
anaconda-navigator==1.3.1
argcomplete==1.0.0
astroid==1.4.7
astropy==2.0
Babel==2.3.4
backports.shutil-get-terminal-size==1.0.0
beautifulsoup4==4.5.1
bitarray==0.8.1
blaze==0.10.1
bokeh==0.12.2
boto==2.42.0
Bottleneck==1.2.1
cffi==1.7.0
chest==0.2.3
click==6.6
cloudpickle==0.2.1
clyent==1.2.2
colorama==0.3.7
comtypes==1.1.2
conda==4.3.22
conda-build==2.0.2
configobj==5.0.6
contextlib2==0.5.3
cryptography==1.5
cycler==0.10.0
Cython==0.24.1
cytoolz==0.8.0
dask==0.11.0
datashape==0.5.2
decorator==4.0.10
dill==0.2.5
docutils==0.12
dynd===c328ab7
et-xmlfile==1.0.1
fastcache==1.0.2
filelock==2.0.6
Flask==0.11.1
Flask-Cors==2.1.2
gevent==1.1.2
greenlet==0.4.10
h5py==2.7.0
HeapDict==1.0.0
idna==2.1
imageio==2.2.0
imagesize==0.7.1
ipykernel==4.5.0
ipython==5.1.0
ipython-genutils==0.1.0
ipywidgets==5.2.2
itsdangerous==0.24
jdcal==1.2
jedi==0.9.0
Jinja2==2.8
jsonschema==2.5.1
jupyter==1.0.0
jupyter-client==4.4.0
jupyter-console==5.0.0
jupyter-core==4.2.0
lazy-object-proxy==1.2.1
llvmlite==0.19.0
locket==0.2.0
lxml==3.6.4
MarkupSafe==0.23
matplotlib==2.0.2
menuinst==1.4.1
mistune==0.7.3
mpmath==0.19
multipledispatch==0.4.8
nb-anacondacloud==1.2.0
nb-conda==2.0.0
nb-conda-kernels==2.0.0
nbconvert==4.2.0
nbformat==4.1.0
nbpresent==3.0.2
networkx==1.11
nltk==3.2.1
nose==1.3.7
notebook==4.2.3
numba==0.34.0
numexpr==2.6.2
numpy==1.13.1
odo==0.5.0
openpyxl==2.3.2
pandas==0.20.2
partd==0.3.6
path.py==0.0.0
pathlib2==2.1.0
patsy==0.4.1
pep8==1.7.0
pickleshare==0.7.4
Pillow==3.3.1
pkginfo==1.3.2
ply==3.9
prompt-toolkit==1.0.3
psutil==4.3.1
py==1.4.31
py4j==0.10.4
pyarrow==0.4.1
pyasn1==0.1.9
pycosat==0.6.1
pycparser==2.14
pycrypto==2.6.1
pycurl==7.43.0
pyflakes==1.3.0
Pygments==2.1.3
pyidealdata==0.7.0
pylint==1.5.4
pyodbc==4.0.17
pyOpenSSL==16.2.0
pyparsing==2.1.4
pyspark==2.1.0+hadoop2.7
pytest==2.9.2
python-dateutil==2.5.3
pytz==2016.6.1
PyUber==1.4.4
PyWavelets==0.5.2
pywin32==220
PyYAML==3.12
pyzmq==15.4.0
QtAwesome==0.3.3
qtconsole==4.2.1
QtPy==1.1.2
requests==2.14.2
rope-py3k==0.9.4.post1
ruamel-yaml===-VERSION
scikit-image==0.13.0
scikit-learn==0.18.2
scipy==0.19.1
simplegeneric==0.8.1
singledispatch==3.4.0.3
six==1.10.0
snowballstemmer==1.2.1
sockjs-tornado==1.0.3
sphinx==1.4.6
spyder==3.0.0
SQLAlchemy==1.0.13
statsmodels==0.8.0
sympy==1.0
tables==3.2.2
toolz==0.8.0
tornado==4.4.1
traitlets==4.3.0
unicodecsv==0.14.1
wcwidth==0.1.7
Werkzeug==0.11.11
widgetsnbextension==1.2.6
win-unicode-console==0.5
wrapt==1.10.6
xlrd==1.0.0
XlsxWriter==0.9.3
xlwings==0.10.0
xlwt==1.1.2

我想知道是否有人能解释为什么pyarrow不能在某台机器上工作?在

谢谢, 阿杜


Tags: 模块数据代码版本名称声明jupyteranaconda

热门问题