我有一个包含4列的spark dataframe
:
(col_1, col_2, col_3, col_4) ==> (String, String, Int, Int)
在数据中,有时col_3
为空,例如:
{3>只想在测试之后返回一个新的列:
如果col_3
为空返回col_4
否则返回col_3
为了解决这个问题,我这样做了:
>>>
>>> def calculcolumn(col_3, col_4):
... if (col_3 is None ):
... return col_4
... else:
... return col_3
...
>>>
>>> calculcolumn( ,12)
File "<stdin>", line 1
calculcolumn( ,12)
^
SyntaxError: invalid syntax
>>>
但它抛出SyntaxError
,我该如何解决它?在
如果使用
pyspark
数据帧,则应该使用本机pyspark
函数。要解决您的问题,您可以执行以下操作,根据col3
是否为None
创建一个新列:此函数将创建一个新列,如果
col3
为空,则使用col4
,否则将使用col3
。在你得到了一个
SyntaxError
,因为,这是一个语法错误。你也必须通过第一个论点。在
您也可以使用kwargs并执行以下操作:
^{pr2}$相关问题 更多 >
编程相关推荐