我有一个如下的数据集
Name Surname Username Tweet Tags
Matthew Fields m.fields I love summertime summer summertime sun holiday
Fion Stewart fion It is time to enjoy ourselves time
Christine Bold chris89 Enjoy your summer summer
Vera Lovable v.lov2 It's sunny outside sun summer holiday
我想在三列(用户名、Tweet和标记)中搜索以下字符串列表:
list_strings=['summer','summertime','sun','holiday']
查看是否至少在一列中有一个或多个上述术语。该检查应保存在一个新列中,即Terms from list,其中将存储在所有列中找到的术语(没有重复项,即,如果同一术语出现在更多列中,我只需提及一次)
预期产出将是:
Name Surname Username Tweet Tags Terms from list
Matthew Fields m.fields I love summertime summer summertime sun holiday summer, summertime, sun, holiday
Christine Bold chris89 Enjoy your summer summer summer
Vera Lovable v.lov2 It's sunny outside sun summer holiday sun, summer, holiday
你能给我一些建议,告诉我怎么做,并给我指出正确的方向吗?多谢各位
尝试以下步骤
步骤1:对于df中的每个元素,如果字符串中的任何单词(x.split(“”)[i]==string)也是列表中的单词,请保留它,否则它将给出一个空列表([])。i、 e.我们将有一个列表(长度为1或零)。因此,我们从列表中选择第一项(val[0]),如果它存在的话
步骤2:我们将三列中组合列表的唯一元素分配给“列表中的术语”列
你可以试试
str.contains
如果有多个列
相关问题 更多 >
编程相关推荐