擅长:python、mysql、java
<p>一个简单的解决方案是定义一个<code>UDF</code>并使用它。例如</p>
<pre><code>from pyspark.sql.functions import udf
def contains_address(address, street_name):
return street_name in address
contains_address_udf = udf(contains_address, BooleanType())
df.withColumn("new_col", contains_address_udf("address", "street_name")
</code></pre>
<p>在这里,简单地使用<code>in</code>是可能的,但是如果需要更复杂的功能,只需用正则表达式替换它。在</p>