我有一个熊猫数据框(df),有3列: “药物”、“影响”、“杂志” 每一行都是一篇科学论文,每一篇论文都陈述了药物对疾病的影响。例如:
Drug Affect Journal aspirin downregulate paper1 aspririn downregulate paper2 aspirin upregulate paper3 aspirin neutral paper4 aspirin downregulate paper5 aspririn upregulate paper6 iboruprofen upregulate paper7 iboruprofen upregulate paper8 iboruprofen downregulate paper9 other_drug ... ...
输出应如下所示:
Drug
aspirin
我想对df做一个筛选,只得到大多数论文中显示的下调疾病的药物,因此,如果阿司匹林有3篇论文说它下调,2篇论文说它上调,1篇论文说它具有中性作用,那么我们假设大多数证据表明其作用是下调。所以我想把阿司匹林放在我的肚子里。因此,iboruprofen不应该进入我的过滤df
我怎样才能把这个小组变成一个团队?谢谢你的帮助
按用药组和影响组的记录数进行计数
输出:
循环查看独特的药物清单并检查编号。如果下调>;上调,将此药物添加到结果列表中
最后,过滤原始数据帧
如果您只想拥有具有所需药物值的数据帧
最终输出:
另一种选择是使用
convtools
库:使用^{} 和^{} 的更简单方法:
values_counts
返回Affect
列中每个唯一值的计数。nlargest(1)
返回计数最高的单行index
返回一个包含最频繁项名称的数组相关问题 更多 >
编程相关推荐