我试图将MedLine文件解析为0,1
表,以执行一些统计下游分析:PCA、GWAS等。现在,我不知道该怎么继续。在
我需要将File 1
-一个每行一张纸和制表符分隔的关键字的键值文件转换成一个包含折叠关键字和关键字存在/不存在的文件,显示为1或0个值。在
我想用Perl实现这一点,但也欢迎其他解决方案。在
谢谢,伯纳多
File 1
:
19801464 Animals Biodiversity Computational Biology/methods DNA
19696045 Environmental Microbiology Computational Biology/methods Software
期望输出:
^{pr2}$
可以使用Python和Pandas执行此操作:
希望这有帮助
此} 表示} 来转储数据结构:
perl
脚本将生成一个您应该能够使用的哈希。为了方便起见,我使用^{uniq
,并使用^{输出
^{pr2}$从那里产生您想要的输出可能需要
printf
来正确格式化行。以下目的可能足够了:编辑
一些格式化输出的方法。。。(我们使用
x
将格式节乘以@categories
数组中元素的长度或数量,以便它们匹配):使用
format
使用
printf
:使用
form
:根据您计划如何处理数据,您可能能够用perl完成其余的分析工作,因此,在工作流程的后期阶段,打印的精确格式可能不是优先考虑的问题。请参见BioPerl获取想法。在
相关问题 更多 >
编程相关推荐