如何使用pysp筛选不包含任何子字符串列表的数据帧行

2024-09-23 04:10:44 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个带有Spark 1.6的python数据帧。例如

DF= ("timestamp","canal", "name")

示例数据:

   [('1980-02-24'),('google.com/General'),('Alice')]
   [('1980-02-24'),('google.com/Dataset'),('bob')]
   [('1980-02-24'),('googleserach.com'),('Malik')]
   [('1980-02-24'),('googlesearch.com/AIPlateforme'),('AliceBob')]
   [('1980-02-24'),('yahooserach.com'),('Bob2')]
   [('1980-02-24'),('yahoosearch.com/AIPlateforme'),('Alice2')]

DF.count() = 6

我想把所有的线,那"canal"not containsubstringgoogleserach.comyahoosearch

我创建了一个变量:

canal_2 = "googleserach.com,yahoosearch"

然后:

解决方案1:

result = DF.filter(~DF.canal.isin (canal_2)) ==> does not work
result.count() = 6

解决方案2:

if (canal2 not in DF.canal) ==> invalid syntax

如何在数据帧上进行过滤,以获取“canal”不包含googlesearchyahoosearch的行?你知道吗

谢谢


Tags: 数据comdfcountgooglenotresult解决方案
3条回答

你知道吗测向滤波器(~df[“运河”].isin(运河2)).collect() 试试这个。你知道吗

df = spark.createDataFrame([ 
 ('1980-02-24','google.com/General','Alice'),
 ('1980-02-24','google.com/Dataset','bob'),
 ('1980-02-24','googleserach.com','Malik'),
 ('1980-02-24','googlesearch.com/AIPlateforme','AliceBob'),
 ('1980-02-24','yahooserach.com','Bob2'),
 ('1980-02-24','yahoosearch.com/AIPlateforme','Alice2')
                 ], schema=("dt","canal","name"))

df.filter(~df.canal.like('%google.com%') & ~df.canal.like('%yahoosearch%')).show()

也有可能。pyspark没有包含它的外观。你知道吗

rlikeregex将起作用。你知道吗

regexNegativeLB= "^/(?!googlesearch|yahoosearch)$"
newDF= DF.filter(DF["canal"].rlike(regexNegativeLB))

https://www.rexegg.com/regex-lookarounds.html参考负面展望

相关问题 更多 >