如何使用pysp筛选不包含任何子字符串列表的数据帧行

[('1980-02-24'),('google.com/General'),('Alice')] [('1980-02-24'),('google.com/Dataset'),('bob')] [('1980-02-24'),('googleserach.com'),('Malik')] [('1980-02-24'),('googlesearch.com/AIPlateforme'),('AliceBob')] [('1980-02-24'),('yahooserach.com'),('Bob2')] [('1980-02-24'),('yahoosearch.com/AIPlateforme'),('Alice2')] DF.count() = 6

3条回答

网友

1楼 · 编辑于 2024-09-23 04:10:44

你知道吗测向滤波器（~df[“运河”].isin（运河2））.collect（）试试这个。你知道吗

网友

2楼 · 编辑于 2024-09-23 04:10:44

df = spark.createDataFrame([ 
 ('1980-02-24','google.com/General','Alice'),
 ('1980-02-24','google.com/Dataset','bob'),
 ('1980-02-24','googleserach.com','Malik'),
 ('1980-02-24','googlesearch.com/AIPlateforme','AliceBob'),
 ('1980-02-24','yahooserach.com','Bob2'),
 ('1980-02-24','yahoosearch.com/AIPlateforme','Alice2')
                 ], schema=("dt","canal","name"))

df.filter(~df.canal.like('%google.com%') & ~df.canal.like('%yahoosearch%')).show()

也有可能。pyspark没有包含它的外观。你知道吗

网友

3楼 · 编辑于 2024-09-23 04:10:44

rlike和regex将起作用。你知道吗

regexNegativeLB= "^/(?!googlesearch|yahoosearch)$"
newDF= DF.filter(DF["canal"].rlike(regexNegativeLB))

https://www.rexegg.com/regex-lookarounds.html参考负面展望

相关问题更多 >

编程相关推荐

热门问题

热门文章