使用临时内存进行智能计算

with open("test.txt") as f: dic = defaultdict(list) for line in f: spl =line.split("\t") if("Fam" in line): dic[spl[0]].append(spl[1:]) a = float(spl[5]) b = float(spl[6]) sum = a * b output = str(sum) this = line.strip() + "\t"+output if("TK" in line): #I would like to start sum up after this. Read all lines that include "TK", check index[0] for matches, if match sum up.

Fam_c1_1 F Extractions 02-0419 02-419TK 500 400 200000.0 Fam_c1_1 F Extractions 5107 5107TK 1475 447.5 660062.5 Fam_c10_1 F Extractions 5132 5132TK 1555 547.6 851518.0 Fam_c100_1 M Extractions 5843 5843TK 2605 398.6 1038353.0 Fam_c1000_1 F Extractions 9913 9913TK 1900 398 756200.0 Fam_c1001_1 F Extractions 9512 9512TK 1050 20 21000.0

1条回答

网友

1楼 · 发布于 2024-09-28 19:32:20

我提议用这样的东西：

with open('filename') as f:

   def lineValue(line):
     parts = line.split('\t')
     return float(parts[5]) * float(parts[6])

   def lineKey(line):
     parts = line.split('\t')
     return parts[0]

   for match, lines in groupby(
       line for line in f if "Fam" in line and "TK" in line,
       lineKey):
     yield sum(lineValue(line) for line in lines)

这种方式取决于所有匹配的值已经在彼此后面。如果不是这样，itertools.groupby()就没用了。当然，将行拆分两次并不是最优雅的解决方案。你知道吗

如果匹配的行不在后面，则需要构建一个答案的dict，然后defaultdict听起来合理：

result = defaultdict(float)
with open('filename') as f:

   def lineValue(line):
     parts = line.split('\t')
     return float(parts[5]) * float(parts[6])

   def lineKey(line):
     parts = line.split('\t')
     return parts[0]

   for line in f:
     if "Fam" in line and "TK" in line:
       result[lineKey(line)] += lineValue(line)

再说一次，只拆分一次行将是一个更优雅的解决方案。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章