在python中用“from an infie”拆分线

chr1 hg19_refFlat exon 44160380 44160565 0.000000 + . gene_id "KDM4A"; transcript_id "KDM4A"; chr1 hg19_refFlat exon 19563636 19563732 0.000000 - . gene_id "EMC1"; transcript_id "EMC1"; chr1 hg19_refFlat exon 52870219 52870551 0.000000 + . gene_id "PRPF38A"; transcript_id "PRPF38A"; chr1 hg19_refFlat exon 53373540 53373626 0.000000 - . gene_id "ECHDC2"; transcript_id "ECHDC2_dup2"; chr1 hg19_refFlat exon 11839859 11840067 0.000000 + . gene_id "C1orf167"; transcript_id "C1orf167"; chr1 hg19_refFlat exon 29037032 29037154 0.000000 + . gene_id "GMEB1"; transcript_id "GMEB1"; chr1 hg19_refFlat exon 103356007 103356060 0.000000 - . gene_id "COL11A1"; transcript_id "COL11A1";

3条回答

网友

1楼 · 编辑于 2024-06-28 11:23:02

您可以将所有行加载到一个列表中，然后对该列表中的每个项执行split（如果文件很长，则不确定效率如何）

with open(infile) as r:
    lines = [line for line in r]
    start = set([line.strip().split()[3] for line in lines])
    genes = set([line.split('"')[1] for line in lines])

网友

2楼 · 编辑于 2024-06-28 11:23:02

您可以使用regex。在

with open(file) as f:
    start = []
    genes = []
    for line in f:
        st, gen = re.search(r'\bexon\s+(\d+)\b.*?\s+gene_id\s+"([^"]*)"', line).groups()
        start.append(st)
        genes.append(gen)
    print set(start)
    print set(genes)

DEMO

网友

3楼 · 编辑于 2024-06-28 11:23:02

这是因为当你在这里循环一次文件对象时，start = set([line.strip().split()[3] for line in r])再次尝试在这里genes = set([line.split('"')[1] for line in r])循环一次耗尽的文件对象

解决方案：

您可以查找文件的开头（这是解决方案之一）

修改代码：

with open(infile,'r') as r:
    start = set([line.strip().split()[3] for line in r])
    r.seek(0, 0)
    genes = set([line.split('"')[1] for line in r])
    print len(start)
    print len(genes)

相关问题更多 >

编程相关推荐

热门问题

热门文章