我通过以下命令运行py文件:
/opt/cloudera/parcels/SPARK2-2.2.0.cloudera2-1.cdh5.12.0.p0.232957/bin/spark2-submit --jars /home/jsonnt200/geomesa-hbase-spark-runtime_2.11-1.3.5.1cc.jar,/ccri/hbase-site.zip geomesa_klondike_enrichment2.py
这将导致以下错误:
Traceback (most recent call last): File "/home/jsonnt200/geomesa_klondike_enrichment2.py", line 6306, in df2_500m.write.option('header', 'true').csv('/user/jsonnt200/klondike_201708_1m_500meter_testEQ_union4') File "/opt/cloudera/parcels/SPARK2-2.1.0.cloudera2-1.cdh5.7.0.p0.171658/lib/spark2/python/pyspark/sql/readwriter.py", line 711, in csv self._jwrite.csv(path) File "/opt/cloudera/parcels/SPARK2-2.1.0.cloudera2-1.cdh5.7.0.p0.171658/lib/spark2/python/lib/py4j-0.10.4-src.zip/py4j/java_gateway.py", line 1133, in call File "/opt/cloudera/parcels/SPARK2-2.1.0.cloudera2-1.cdh5.7.0.p0.171658/lib/spark2/python/pyspark/sql/utils.py", line 79, in deco raise IllegalArgumentException(s.split(': ', 1)[1], stackTrace) pyspark.sql.utils.IllegalArgumentException: u'Illegal pattern component: XXX'
最大的问题是如果我通过ipython提交相同的py文件,它会正确运行。有什么问题吗?不幸的是,我不得不将spark2提交用于隧道挖掘。在
您使用的是Spark 2.2.0,对吗?我在尝试读取csv文件时遇到了相同的问题。我认为问题在于
timestampFormat
变量。它的默认值是yyyy-MM-dd'T'HH:mm:ss.SSSXXX.
Ref.pyspark.sql documentation。在当我将其更改为例如
timestampFormat="yyyy-MM-dd"
时,我的代码可以工作。本post中也提到了这个问题。希望有帮助:)。在相关问题 更多 >
编程相关推荐