读取ATCG的DNA序列,计算第三个p

2024-09-29 21:37:58 发布

您现在位置:Python中文网/ 问答频道 /正文

我想读取ATCG的DNA序列,并计算出排在第三位的ATCG的数目。你知道吗

例如1:

DNA=AAATTCCCGG

排在第三位的ATCG是这样的:AA'A'TT'T'CC'C'GG'G'

所以在这个序列中,A=1t=1c=1g=1。你知道吗

例如2:

DNA=ATGGTATTAAA

在“G”GT“A”TT“T”AA“A”

我想数一数3,6,9,12个ATCG数字。所以在DNA中A=2t=1c=0g=1

我的txt文件如下:

>seq1
ATGGTATTTAAA
ATCGTTTTTAAA
>seq2
ATGGTATTTAAA
ATCGTTTTTAAA
ATCGTTTTTAAA
>seq3
ATGGTATTTAAA

我的代码如下:

f = open("a.txt","r")
seqlist = []
for line in f.readlines():
  line = line.strip("\n")
  if line.startswith(">"):
    print(line)
  elif line.startswith("A") or line.startswith("T") or line.startswith("C") or line.startswith("G"):
    seq = line
    y = 0
    for y in range(2, len(seq), 3):
      x = seq[y]
      print(x)

现在我可以拿到ATCG的第三名了,我想把它列在一个名单里。你知道吗

然后我可以数ATCG。你知道吗

但我不知道怎么把它放在一张单子里。得到以下结果。你知道吗

seq1 A=3 T=3 C=1 G=1
seq2 A=? T=? C=? G=?
seq3 A=? T=? C=? G=?

非常感谢你对我的帮助。你知道吗


Tags: ortxtline序列seqdnaaatt
1条回答
网友
1楼 · 发布于 2024-09-29 21:37:58

下面是一个尽可能少地修改代码的选项:

from collections import Counter

counter = None
for line in f.readlines():
    line = line.strip("\n")
    if line.startswith(">"):
        if counter is not None:
            print(counter)
        print(line)
        counter = Counter()
    elif line.startswith("A") or line.startswith("T") or line.startswith("C") or line.startswith("G"):
        seq = line
        y = 0
        for y in range(2, len(seq), 3):
            x = seq[y]
            counter[x] += 1
print(counter)

输出:

>seq1
Counter({'A': 3, 'T': 3, 'C': 1, 'G': 1})
>seq2
Counter({'T': 5, 'A': 4, 'C': 2, 'G': 1})
>seq3
Counter({'A': 2, 'T': 1, 'G': 1})

这是同样的事情,但总体上改进了代码,并更好地格式化了输出:

from collections import Counter

counter = None
bases = 'ATCG'

def print_counter():
    print(' '.join('%s=%s' % (k, counter[k]) for k in bases))

with open("a.txt", "r") as f:  # Always open files like this
    for line in f:  # no need for readlines
        line = line.strip("\n")
        if line.startswith(">"):
            if counter is not None:
                print_counter()
            print(line)
            counter = Counter()
        elif line and line[0] in bases:
            counter.update(line[2::3])
print_counter()

输出:

>seq1
A=3 T=3 C=1 G=1
>seq2
A=4 T=5 C=2 G=1
>seq3
A=2 T=1 C=0 G=1

相关问题 更多 >

    热门问题