数据如下:
pageId]|[page]|[Position]|[sysId]|[carId
0005]|[bmw]|[south]|[AD6]|[OP4
至少有50列和数百万行。
我试着用下面的代码来阅读:
dff = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").option("inferSchema", "true").option("delimiter", "]|[").load(trainingdata+"part-00000")
它给了我以下错误:
IllegalArgumentException: u'Delimiter cannot be more than one character: ]|['
在RDD中,分隔符可以使用多个字符
你可以试试这个代码
可以使用
toDF()
函数将RDD转换为DataFrame(如果需要的话),如果需要的话,不要忘记指定模式尝试使用转义序列
相关问题 更多 >
编程相关推荐