从多个CSV文件中发现的分类群频率创建一个表

$cat file_1 1,Salmo salar 12,Solanum pennellii 18,Staphylococcus xylosus ... $cat file_2 1,Salmo salar 14,Staphylococcus xylosus 123,Strongyloides stercoralis ... $cat file_3 123,Solanum pennellii 11,Staphylococcus xylosus 41,Strongyloides stercoralis ...

3条回答

网友

1楼 · 编辑于 2024-06-25 22:50:14

对于那些即将awk的人，我们向你们致敬！你知道吗

awk是为这种处理而创建的。你知道吗

试一试：

awk -F "," -v OFS="," '
 FNR==1 {samples[++fni]=FILENAME}
 {if (!taxakeys[$2]) {taxakeys[$2]=1; taxas[++ti]=$2};frequencies[samples[fni],$2]+=$1}
 END {
   printf("Sample"); for (j=1;j<=ti;j++) { printf("%s%s",OFS,taxas[j])}; printf("\n") 
   for (i=1; i<=fni; i++) {
     printf("%s",samples[i]); for (j=1;j<=ti;j++) { printf("%s%d",OFS,frequencies[samples[i],taxas[j]])}; printf("\n")
   }
 }'

测试：

$ awk -F "," -v OFS="," '
 FNR==1 {samples[++fni]=FILENAME}
 {if (!taxakeys[$2]) {taxakeys[$2]=1; taxas[++ti]=$2};frequencies[samples[fni],$2]+=$1}
 END {
   printf("Sample"); for (j=1;j<=ti;j++) { printf("%s%s",OFS,taxas[j])}; printf("\n") 
   for (i=1; i<=fni; i++) {
     printf("%s",samples[i]); for (j=1;j<=ti;j++) { printf("%s%d",OFS,frequencies[samples[i],taxas[j]])}; printf("\n")
   }
 }' file_*

Sample,Salmo salar,Solanum pennellii,Staphylococcus xylosus,Strongyloides stercoralis
file_1,1,12,18,0
file_2,1,0,14,123
file_3,0,123,11,41

网友

2楼 · 编辑于 2024-06-25 22:50:14

尝试使用csv.Dictwriter文件。你知道吗

把你的12个文件读入一个格式为filename={species\u name:count，species的字典_姓名：count}. 你知道吗
将主目录txt文件读入一个列表
使用csv.Dictwriter文件它将从您创建的词典中写入一个csv文件。如果文件中没有某个物种的数据，可以将其指定为0。你的头将是从主目录的物种列表。你知道吗

网友

3楼 · 编辑于 2024-06-25 22:50:14

你根本不需要主文件。我只是动态生成最终的表。假设将输入文件名作为命令行参数传递给Python脚本：

import sys
from collections import defaultdict

data = defaultdict(dict) # { taxon: { filename: count } }                                                               

for filename in sys.argv[1:]:
    with open(filename) as infile:
        for line in infile:
            count, taxon = line.rstrip().split(',')
            data[taxon][filename] = count

现在有了data，这就是输出文件所需的一切。然后可以这样打印：

taxa = data.keys()
print "Sample,{}".format(','.join(taxa))
for filename in sys.argv[1:]:
    print filename,
    for taxon in taxa:
        count = data[taxon].get(filename, "0")
        sys.stdout.write("," + count)
    print

相关问题更多 >

编程相关推荐

热门问题

热门文章