我有一个带有Spark 1.6的python数据帧。例如
DF= ("timestamp","canal", "name")
示例数据:
[('1980-02-24'),('google.com/General'),('Alice')]
[('1980-02-24'),('google.com/Dataset'),('bob')]
[('1980-02-24'),('googleserach.com'),('Malik')]
[('1980-02-24'),('googlesearch.com/AIPlateforme'),('AliceBob')]
[('1980-02-24'),('yahooserach.com'),('Bob2')]
[('1980-02-24'),('yahoosearch.com/AIPlateforme'),('Alice2')]
DF.count() = 6
我想把所有的线,那"canal"
not contain
substring
googleserach.com
和yahoosearch
我创建了一个变量:
canal_2 = "googleserach.com,yahoosearch"
然后:
解决方案1:
result = DF.filter(~DF.canal.isin (canal_2)) ==> does not work
result.count() = 6
解决方案2:
if (canal2 not in DF.canal) ==> invalid syntax
如何在数据帧上进行过滤,以获取“canal”不包含googlesearch
和yahoosearch
的行?你知道吗
谢谢
你知道吗测向滤波器(~df[“运河”].isin(运河2)).collect() 试试这个。你知道吗
也有可能。pyspark没有包含它的外观。你知道吗
rlike
和regex
将起作用。你知道吗https://www.rexegg.com/regex-lookarounds.html参考负面展望
相关问题 更多 >
编程相关推荐