只选取低于某个阈值的值

Mod# 2 11494 Chi^2: 1.19608371367 Scale: 0.567691651772 Tin: 1499 Teff: 3400 Luminosity: 568.0 L M-dot: 4.3497e-08 Tau: 2.44E-01 Dust composition: Fe IRx1: 0.540471121182

2条回答

网友

1楼 · 编辑于 2024-09-30 04:35:06

下面的解决方案假设数据是作为元组列表读入的。在

例如：

[(1,5.2),
(2,1.43),
(3,3.54),
(4,887),
(5,0.35)]

将是问题中样本数据的列表。在

^{pr2}$

函数的第一行按元组第二位的值对列表进行排序。在

然后，函数的第二行过滤得到的列表，以便只保留值低于阈值的元素。在

如果第三行包含两个以上的元素，则第三行返回结果排序列表，否则返回“找不到值”，这样可以完成您正在尝试的操作，减少文件输入。在

网友

2楼 · 编辑于 2024-09-30 04:35:06

假设文件每行有一个数字：

threshold = 5
with open('path/to/file') as infile:
    numbers = [float(line.strip()) for line in infile]
numbers.sort(reverse=True)
bigger = list(itertools.takewhile(lambda n: n<threshold, numbers))

如果文件如下所示：

^{pr2}$

您希望您的输出是set([2,3,5])，然后：

with open('path/to/file') as infile:
    numbers = dict([float(i) for i in line.strip()] for line in infile)
lines = sorted(numbers, key=numbers.__getitem__, reverse=True)
answer = list(itertools.takewhile(lambda n: numbers[n]<threshold, lines))

给定一个如下所示的文件：

Mod# 2 11494    Chi^2:  1.19608371367   Scale:  0.567691651772  Tin:    1499    Teff:   3400    Luminosity:     568.0   L   M-dot: 4.3497e-08   Tau: 2.44E-01   Dust composition: Fe    IRx1:   0.540471121182

如果有一个制表符（\t）分隔11494和Chi^2，则以下脚本应该可以工作：

def takeUntil(fpath, colname, threshold):
    lines = []
    with open(fpath) as infile:
        for line in infile:
            ldict = {}
            firsts = line.split('\t', 2)
            ldict[firsts[0] = float(firsts[1])
            splits = firsts[2].split('\t')
            ldict.update(dict(zip(firsts, itertools.islice(firsts, 1, len(firsts)))))
            lines.append(ldict)
    lines.sort(reverse=True, key=operator.itemgetter(colname))
    return [row['Mod#'] for row in itertools.takewhile(lambda row: row[colname]<threshold, lines)]

使用该函数，您应该能够指定要检查哪些列的值低于阈值。尽管此算法确实具有更高的空间复杂性（使用的RAM比绝对需要的多），但您应该能够在读取文件后marshall/picklelines，并从那里继续进行后续的运行。如果你有一个巨大的输入文件需要一段时间来处理（我想你可能已经有了），这一点特别有用

相关问题更多 >

编程相关推荐

热门问题

热门文章