将文件中的行读入特定字段的列表

Job id Name User Time Use S Queue ------------------------- ---------------- --------------- -------- - ----- 48638.tyrone-cluster ...01R-1850-01_2 mcbkss 0 Q qp32 48738.tyrone-cluster case3sqTS1e-4 mecvamsi 588:30:5 R qp32 48758.tyrone-cluster meshA5 mecmdjim 45:00:40 R qp32

Job id Name User Time Use S Queue ------------------------- ---------------- --------------- -------- - ---- 48998.tyrone-cluster gic1_nwgs mbupi 18:45:44 R qp32 48999.tyrone-cluster gic2_nwgs mbupi 0 Q batch 49005.tyrone-cluster ...01R-1849-01_2 mcbkss 00:44:23 R qp32 8687.tyrone-cluster gaussian_top.sh chemraja 0 Q qp32 49047.tyrone-cluster jet_egrid asevelt 312:33:0 R qp128 49052.tyrone-cluster case3sqTS1e-4 mecvamsi 0 Q qp32 49053.tyrone-cluster ...01R-1850-01_1 mcbkss 0 Q batch 49054.tyrone-cluster ...01R-1850-01_2 mcbkss 0 Q batch

2条回答

网友

1楼 · 编辑于 2024-09-27 02:22:57

可以用正则表达式解析这些行。对于要显示的字段，可以将它们放在捕获组中，方法是将正则表达式的相关部分用括号括起来。您可以使用regex匹配结果上的group（）方法提取这些捕获组。你知道吗

import re

# joblist list will store each line of parsed output
joblist=[]
prog = re.compile('^(\d+)\..*\s+.*\s+\w+\s+(.*)\s+(\w)\s+(.*)$')
with open('job.txt','r') as jobfile:
        for line in jobfile.readlines():
                result = prog.match(line)
        # Handle header line and skip lines that don't match regex
                if result is None:
                    continue
                else:
                    joblist.append(' '.join([result.group(1), result.group(2), result.group(3), result.group(4)]))

# displaying the list
for job in joblist:
    print job

您提供的数据：

macbook:Downloads joeyoung$ cat job.txt
Job id                    Name             User            Time Use S Queue
48638.cluster ...01R-1850-01_2 mcbkss 0 Q qp32
48738.cluster case3sqTS1e-4 mecvamsi 588:30:5 R qp32
48758.cluster meshA5 mecmdjim 45:00:40 R qp32
48638.tyrone-cluster ...01R-1850-01_2 mcbkss 0 Q qp32
48708.tyrone-cluster ...onwgs_entries mbupi 0 Q qp32
48736.tyrone-cluster ...01R-1850-01_1 mcbkss 0 Q batch
48737.tyrone-cluster ...01R-1850-01_2 mcbkss 0 Q batch

脚本对上述数据的输出（包括第2列中的newly request time字段）：

macbook:Downloads joeyoung$ python parsejob.py
48638 0 Q qp32
48738 588:30:5 R qp32
48758 45:00:40 R qp32
48638 0 Q qp32
48708 0 Q qp32
48736 0 Q batch
48737 0 Q batch

分析后的数据可在作业列表列表变量中找到。你知道吗

网友

2楼 · 编辑于 2024-09-27 02:22:57

Regex在这里有点过分了，可以使用字符串拆分来代替，并使用islice忽略前两行。把所有的词都从这些词中提取到第一个.，然后从剩下的词中提取最后两个词，例如：

from itertools import islice

with open('job.txt') as fin:
    for line in islice(fin, 2, None):
        num, _, rest = line.partition('.')
        _, letter, code = rest.rsplit(None, 2)
        print num, letter, code

相关问题更多 >

编程相关推荐

热门问题

热门文章