将具有不同组织和不同共享值的多个文件组合在一起

2024-09-30 12:23:11 发布

您现在位置:Python中文网/ 问答频道 /正文

我从NCBI GEO下载了100个基因表达数据集,并将所有可能的注释与每个注释关联起来。每个文件由基因行和各种注释列以及表达式数据组成。然而,由于这些都来自不同的来源和平台,因此没有一种统一的方法来标记它们。一些使用基因名称(例如yfgA),而一些使用标准名称(例如b1029),而另一些使用完全不同的命名约定。注释列的组织和命名也因文件而异

我想把所有的文件组合在一起,这样我就有了每个基因的所有实验的基因表达式值,但是因为注释到处都是,R或python中的传统合并或组合方法似乎不适合我。单独完成这项工作也需要很长时间,所以我想用一些方法来实现自动化(因为我还有10000个文件等着完成这项工作)

我想要一个文件,其中行是每个基因,列是可能的不同注释,然后是所有基因表达数据

任何帮助或建议都将不胜感激


Tags: 文件数据方法标记名称标准表达式基因

热门问题