协助编写awk脚本版本的python代码以生成计数矩阵

2024-07-03 06:18:12 发布

您现在位置：Python中文网/ 问答频道 /正文

9071

网友

男 | 程序猿一只，喜欢编程写python代码。

我没有发现任何与此类似的问题

我用这个python脚本从只包含序列的文件中生成一个计数矩阵，但运行起来需要很长时间，但我知道awk会做得更快。我对awk不太在行，但希望有人能帮助我。 python脚本如下所示：

    numFiles = int(sys.argv[1])
    allParams = int(numFiles + 4)
    key_file = sys.argv[2]
    out_file = sys.argv[3]
    #open the output file
    outHandle = open(out_file,'w')
    #Open key file and read one line at a time
    with open(key_file) as kf:
            for eachline in kf:
                    temp_list = [0] * numFiles
                    kSeq = eachline.strip(' \t\n\r')
                    upRange = int(numFiles + 4)

                    for i in range(4,upRange):
                            with open(sys.argv[i]) as f:
                                    for eachline in f:
                                            seq = eachline.strip(' \t\n\r')
                                            if (kSeq == seq):
                                                    curr = int(temp_list[i-4])
                                                    nw = int(curr + 1)
                                                    temp_list[i-4] = nw
                                            else:
                                                    continue

                    outHandle.write(str(kSeq) + "\t")
                    for ind,item in enumerate(temp_list):
                            lastItemIndex = numFiles - 1
                            if(ind == lastItemIndex):
                                    outHandle.write(str(item) + "\n")
                            else:
                                    outHandle.write(str(item) + "\t")

尝试创建一个示例：

输入：一个键文件，X个其他文件（所有输入文件基本上都是单列中的单词）输出：一个矩阵，包含X个文件中键文件中出现的单词数

密钥文件：

^{tb1}$

文件1：

^{tb2}$

文件2：

^{tb3}$

输出：

^{tb4}$

文件数最多可为4个

我希望这个例子更清楚

多谢各位

Tags：文件 key in for sys open temp list

1条回答

网友

1楼 · 发布于 2024-07-03 06:18:12

因此，经过广泛的阅读和尝试，我得到了我想要实现使用代码

awk 'fname != FILENAME { fname = FILENAME; idx++ } idx == 1 {key[$0] = $0 } idx == 2 {if($1 == key[$1]){ f1[$1] += 1 }} idx == 3 {if($1 == key[$1]){ f2[$1] += 1 }} END {for(seq in key) print seq "\t" f1[seq] "\t" f2[seq] }' keyFile file1 file2

谢谢大家的意见

协助编写awk脚本版本的python代码以生成计数矩阵

相关问题更多 >

编程相关推荐

热门问题

热门文章

协助编写awk脚本版本的python代码以生成计数矩阵

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >