Pyspark2写入CSV问题?

2024-06-02 09:39:01 发布

您现在位置:Python中文网/ 问答频道 /正文

我通过以下命令运行py文件:

/opt/cloudera/parcels/SPARK2-2.2.0.cloudera2-1.cdh5.12.0.p0.232957/bin/spark2-submit --jars /home/jsonnt200/geomesa-hbase-spark-runtime_2.11-1.3.5.1cc.jar,/ccri/hbase-site.zip geomesa_klondike_enrichment2.py

这将导致以下错误:

Traceback (most recent call last): File "/home/jsonnt200/geomesa_klondike_enrichment2.py", line 6306, in df2_500m.write.option('header', 'true').csv('/user/jsonnt200/klondike_201708_1m_500meter_testEQ_union4') File "/opt/cloudera/parcels/SPARK2-2.1.0.cloudera2-1.cdh5.7.0.p0.171658/lib/spark2/python/pyspark/sql/readwriter.py", line 711, in csv self._jwrite.csv(path) File "/opt/cloudera/parcels/SPARK2-2.1.0.cloudera2-1.cdh5.7.0.p0.171658/lib/spark2/python/lib/py4j-0.10.4-src.zip/py4j/java_gateway.py", line 1133, in call File "/opt/cloudera/parcels/SPARK2-2.1.0.cloudera2-1.cdh5.7.0.p0.171658/lib/spark2/python/pyspark/sql/utils.py", line 79, in deco raise IllegalArgumentException(s.split(': ', 1)[1], stackTrace) pyspark.sql.utils.IllegalArgumentException: u'Illegal pattern component: XXX'

最大的问题是如果我通过ipython提交相同的py文件,它会正确运行。有什么问题吗?不幸的是,我不得不将spark2提交用于隧道挖掘。在


Tags: csvinpyliblinefileoptcloudera
1条回答
网友
1楼 · 发布于 2024-06-02 09:39:01

您使用的是Spark 2.2.0,对吗?我在尝试读取csv文件时遇到了相同的问题。我认为问题在于timestampFormat变量。它的默认值是yyyy-MM-dd'T'HH:mm:ss.SSSXXX.Ref.pyspark.sql documentation。在

当我将其更改为例如timestampFormat="yyyy-MM-dd"时,我的代码可以工作。本post中也提到了这个问题。希望有帮助:)。在

相关问题 更多 >