pyspark遍历文件并替换datafram中的值

2024-09-30 12:12:20 发布

您现在位置:Python中文网/ 问答频道 /正文

我需要通读文件并替换s3路径中的值。我可以循环该文件,但无法替换该值。在

File ending with \n
/MTD_avg_cust_bal1
/MTDSumOfCustomerInitiatedTrxns1
/MTDCountOfCustomerInitiatedTrxns1

代码:

^{pr2}$

错误:

pyspark.sql.utils.AnalysisException: u'Path does not exist: s3n://omniscience1/MTDSumOfCustomerInitiatedTrxns1\n/loaddate=20170406/part-r-00000-d60b633d-ff49-4515-8cff-ace9faf1b267.csv;; line 1 pos 14'

问题是当值被替换时,它包含\n,而且我需要为每一行有单独的数据帧。在


Tags: 文件代码路径s3错误withendingfile
1条回答
网友
1楼 · 发布于 2024-09-30 12:12:20

如果你能让我们知道你的输出应该是什么样子,那会有帮助。在

我不是python专家。但以下是我根据自己的理解得出的结论。如果这是你要找的,请告诉我。在

with open("Output.txt", 'r') as file:

    for line in file:
        line = line.strip('\n')
        s3path = ("SELECT * FROM parquet.`s3n://bucket{}/loaddate=20170406/part-r-00000-d60b633d-ff49-4515-8cff-ace9faf1b267.csv`") .format(line)

        print (s3path)

上面脚本的输出如下。在

^{pr2}$

相关问题 更多 >

    热门问题