<p>我对Pypark很陌生。我希望我能在这里得到答案。我需要一个使用DataFrameAPI的答案</p>
<p>我的问题是查找文本文件test.txt中包含单词“testA”或“testB”或“testC”的行数</p>
<pre><code>lines=spark.read.text("C:\test.txt")
listStr=["testA","testB","testC"]
lines.filter(lines.isin(listStr)).count() --> this is showing all the lines in the textfile
</code></pre>
<p>附言:如果可以用“lambda”来解决,那就更好了</p>
<p>您还可以使用<code>like</code>:</p>
<pre><code>from functools import reduce
df.filter(
reduce(lambda a, b: a | b, [F.col("value").like(f"%{word}%") for word in listStr])
).count()
</code></pre>