我没有发现任何与此类似的问题
我用这个python脚本从只包含序列的文件中生成一个计数矩阵,但运行起来需要很长时间,但我知道awk会做得更快。我对awk不太在行,但希望有人能帮助我。 python脚本如下所示:
numFiles = int(sys.argv[1])
allParams = int(numFiles + 4)
key_file = sys.argv[2]
out_file = sys.argv[3]
#open the output file
outHandle = open(out_file,'w')
#Open key file and read one line at a time
with open(key_file) as kf:
for eachline in kf:
temp_list = [0] * numFiles
kSeq = eachline.strip(' \t\n\r')
upRange = int(numFiles + 4)
for i in range(4,upRange):
with open(sys.argv[i]) as f:
for eachline in f:
seq = eachline.strip(' \t\n\r')
if (kSeq == seq):
curr = int(temp_list[i-4])
nw = int(curr + 1)
temp_list[i-4] = nw
else:
continue
outHandle.write(str(kSeq) + "\t")
for ind,item in enumerate(temp_list):
lastItemIndex = numFiles - 1
if(ind == lastItemIndex):
outHandle.write(str(item) + "\n")
else:
outHandle.write(str(item) + "\t")
尝试创建一个示例:
输入:一个键文件,X个其他文件(所有输入文件基本上都是单列中的单词) 输出:一个矩阵,包含X个文件中键文件中出现的单词数
密钥文件:
文件1:
文件2:
输出:
文件数最多可为4个
我希望这个例子更清楚
多谢各位
因此,经过广泛的阅读和尝试,我得到了我想要实现使用代码
awk 'fname != FILENAME { fname = FILENAME; idx++ } idx == 1 {key[$0] = $0 } idx == 2 {if($1 == key[$1]){ f1[$1] += 1 }} idx == 3 {if($1 == key[$1]){ f2[$1] += 1 }} END {for(seq in key) print seq "\t" f1[seq] "\t" f2[seq] }' keyFile file1 file2
谢谢大家的意见
相关问题 更多 >
编程相关推荐