Python：确定数据帧中存储的三个文本字符串是否有共同的单词

A B C 0 mom;dad;son; sister;son; yes;no;maybe; 1 dad; daughter;niece; no;snow; 2 son;dad; cat;son;dad; tree;dad;son; 3 daughter;mom; niece; referee; 4 dad;daughter; cat; dad;

A B C D 0 mom;dad;son; sister;son; yes;no;maybe; 1 1 dad; daughter;niece; no;snow; 0 2 son;dad; cat;son;dad; tree;dad;son; 1 3 daughter;mom; niece; referee; 0 4 dad;daughter; cat; dad; 1

for index, row in df.iterrows(): w1=row['A'].split(';') w2=row['B'].split(';') w3=row['C'].split(';') if len(set(w1).intersection(w2))>0 or len(set(w1).intersection(w3))>0 or len(set(w2).intersection(w3))>0: df['D'][index]==1 else: df['D'][index]==0

3条回答

网友

1楼 · 编辑于 2024-10-02 00:36:07

使用stack+pandas.Series.str.get_dummies

df.assign(
    D=df.stack().str.get_dummies(';').sum(level=0).gt(1).any(1).astype(int)
)

               A                B              C  D
0   mom;dad;son;      sister;son;  yes;no;maybe;  1
1           dad;  daughter;niece;       no;snow;  0
2       son;dad;     cat;son;dad;  tree;dad;son;  1
3  daughter;mom;           niece;       referee;  0
4  dad;daughter;             cat;           dad;  1

详细信息

请注意，当我们堆叠并获取虚拟对象时，临时结果如下所示：

     cat  dad  daughter  maybe  mom  niece  no  referee  sister  snow  son  tree  yes
0 A    0    1         0      0    1      0   0        0       0     0    1     0    0
  B    0    0         0      0    0      0   0        0       1     0    1     0    0
  C    0    0         0      1    0      0   1        0       0     0    0     0    1
1 A    0    1         0      0    0      0   0        0       0     0    0     0    0
  B    0    0         1      0    0      1   0        0       0     0    0     0    0
  C    0    0         0      0    0      0   1        0       0     1    0     0    0
2 A    0    1         0      0    0      0   0        0       0     0    1     0    0
  B    1    1         0      0    0      0   0        0       0     0    1     0    0
  C    0    1         0      0    0      0   0        0       0     0    1     1    0
3 A    0    0         1      0    1      0   0        0       0     0    0     0    0
  B    0    0         0      0    0      1   0        0       0     0    0     0    0
  C    0    0         0      0    0      0   0        1       0     0    0     0    0
4 A    0    1         1      0    0      0   0        0       0     0    0     0    0
  B    1    0         0      0    0      0   0        0       0     0    0     0    0
  C    0    1         0      0    0      0   0        0       0     0    0     0    0

前面的列嵌入到索引的第二级。所以我想在第一个层次上求和，看看这个词出现了多少次。你知道吗

这个总和看起来像：

   cat  dad  daughter  maybe  mom  niece  no  referee  sister  snow  son  tree  yes
0    0    1         0      1    1      0   1        0       1     0    2     0    1
1    0    1         1      0    0      1   1        0       0     1    0     0    0
2    1    3         0      0    0      0   0        0       0     0    3     1    0
3    0    0         1      0    1      1   0        1       0     0    0     0    0
4    1    2         1      0    0      0   0        0       0     0    0     0    0

注意，我们在第1行捕获'son'，在第3行捕获'dad'和'son'，依此类推。你知道吗

如果它出现在多个列中（因此gt(1)），那么我想将它计为1（因此any(1).astype(int)）。你知道吗

网友

2楼 · 编辑于 2024-10-02 00:36:07

您可以通过修正输入错误来使用代码：用=替换==。你知道吗

网友

3楼 · 编辑于 2024-10-02 00:36:07

这一行程序使用collections.Counter创建您需要的内容：

from collections import Counter

df['D'] = df.applymap(lambda x: [i for i in x.split(';') if i]).apply(lambda x: int(Counter(x.A+x.B+x.C).most_common(1)[0][1]!=1), axis=1)

详细信息

相关问题更多 >

编程相关推荐

热门问题

热门文章