擅长:python、mysql、java
<p>正如Matei所回答的,readlines()是Python API和sc.TEXT文件将创建RDD,因此RDD没有属性readlines()的错误。在</p>
<p>如果必须使用sparkapi处理文件,可以在为pattern创建的RDD上使用filter API,然后根据分隔符分割输出。在</p>
<p>示例如下:</p>
<pre><code> logLine = sc.textFile("C:\TestLogs\Hospital.log")
logLine_Filtered = logLine.filter(lambda x: "LOG_PATTERN" in x)
logLine_output = logLine_Filtered(lambda a: a.split("<delimiter>")[0], a.split("<delimiter>")[1].....).collect()
logLine_output.first()
</code></pre>
<p>数据帧会更好</p>