如何在pyspark中读取带有“]|[”delimi的文件

2条回答

网友

1楼 · 编辑于 2024-05-19 05:53:08

在RDD中，分隔符可以使用多个字符

你可以试试这个代码

from pyspark import SparkConf, SparkContext
from pyspark.sql import SQLContext

conf = SparkConf().setMaster("local").setAppName("test")
sc = SparkContext(conf = conf)

input = sc.textFile("yourdata.csv").map(lambda x: x.split(']|['))

print input.collect()

可以使用toDF()函数将RDD转换为DataFrame（如果需要的话），如果需要的话，不要忘记指定模式

网友

2楼 · 编辑于 2024-05-19 05:53:08

尝试使用转义序列

dff = (sqlContext.read
                 .format("com.databricks.spark.csv")
                 .option("delimiter", "\\]\\|\\[")
                 .load(trainingdata+"part-00000")

编程相关推荐

不同窗口中的java视图
java创建SQL插入语句到CSV文件
java效率检查：Opengl动画代码
在clojure中处理Java可选<T>
java理解camel中的输入/输出交换模式行为
对于使用jpackage构建的应用程序，java LSOpenURLsWithRole（）失败，错误为10810
多线程Java同步：多重倒计时闩锁
java哪个类应该做这项工作？
java在运行时出现问题。getRuntime（）。执行官
java我们不能在GAE中使用集合或集合作为返回类型吗？

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何在pyspark中读取带有“]|[”delimi的文件

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >