如何利用Python在长序列的基础上提取短序列的位置？

chr1:152806601-152807450 TTCAGCACCATGGACAGCGCC 451 GGCTTCAGCACCACGGACAGCGCCCCACCCGCGGCCCTCCCCCCGGCGGCGCGCTCCAGCCGGTGTAGGCGAGGC TTCAGCACCATGGACAGCGCC 751 AGAGCCCCCCGGGACTGCAGAGAGCACCTGGGAGGCTGGACTGGGAACGAGACATACTCGAAGGAGTAAGTGAAG chr10:125364276-125364825 TTCAGCACCATGGACAGCGCC 301 CAGTAATGTGGGGTTGTGGTCAGCACCATGGACAGCTCCCCTGTTGCTTCATATTGAGGAATAGGAAAGCGCCGC TTCAGCACCATGGACAGCGCC 376 TATCTCCGGATCCTGGCTAGCTCCAGCCACTGCAGGTAACTGTCTTGAATGGGCTTAGAAACATGGTGATGTCTG

import re with open("A.txt", "r") as f: lines = f.readlines() label_ptrn = re.compile("") # insert regular expression sequence ID line_ptrn = re.compile("") # insert regular expression start site inner_ptrn = re.compile("") # insert regular expression end site all_matches = [] for line in lines: m = label_ptrn.match(line) if m: label = m.groupdict().get("label") continue m = line_ptrn.match(line) if m: start = m.groupdict().get("start_value") sequence = m.groupdict().get("sequence") mi = inner_ptrn.search(sequence) if not mi: continue span = mi.span() all_matches.append((label, int(start)+span[0], int(start)+span[1])) with open("A_ouput.bed", "w+b") as f: for m in all_matches: f.write('%s\t%i\t%i\n' % m)

1条回答

网友
1楼 · 发布于 2024-09-27 19:21:40

所以在我看来，你想要的输出的起始位置是1。你知道吗
TTCAGCACCATGGACAGCGCC 451 GGCTTCAGCACCACGGACAGCGCCCCACCCGCGGCCCTCCCCCCGGCGGCGCGCTCCAGCCGGTGTAGGCGAGGC
较短序列中的第一个T看起来好像在较长序列的第四个字符之上。如果较长序列的第一个字符位于位置451，则较短序列的第一个字符将位于位置454。你知道吗
如果文件结构是常量这里是一个非正则表达式解决方案。你知道吗
result = [] with open('file.txt') as f: for line in f: if line.startswith('chr'): label = line.strip() elif line[0] == ' ': # short sequence length = len(line.strip()) # find the index of the beginning of the short sequence for i, c in enumerate(line): if c.isalpha(): short_index = i break elif line[0].isdigit(): # long sequence n = line.split(' ')[0] # or # n = line[:line.index(' ')] # find the index of the beginning of the long sequence for i, c in enumerate(line): if c.isalpha(): long_index = i break start = int(n) + short_index - long_index # start -= 1 end = start + length result.append('{} {} {}'.format(label, start, end)) offset, n, start, length = 0, 0, 0, 0
结果
['chr1:152806601-152807450 454 475', 'chr1:152806601-152807450 758 779', 'chr10:125364276-125364825 319 340', 'chr10:125364276-125364825 379 400']
如果我误解了您的示例数据，请取消对start -= 1的注释。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章