读取具有不同数据类型的二进制文件

2024-09-27 23:21:01 发布

您现在位置:Python中文网/ 问答频道 /正文

试图将用Fortran生成的二进制文件读入Python,它有一些整数、一些实数和逻辑。目前,我正确地阅读了前几个数字:

x = np.fromfile(filein, dtype=np.int32, count=-1)
firstint= x[1]
...

(np是numpy)。 但下一项是合乎逻辑的。后来又在整数和实数之后。我该怎么做?在


Tags: 文件numpycountnp二进制数字整数逻辑
1条回答
网友
1楼 · 发布于 2024-09-27 23:21:01

通常,当您读入这样的值时,它们是以规则模式(例如,一个类C结构的数组)。在

另一个常见的情况是各种值的短头,后面跟着一堆同质类型的数据。在

我们先处理第一个案子吧。在

读取数据类型的规则模式

例如,您可能有以下内容:

float, float, int, int, bool, float, float, int, int, bool, ...

如果是这样,您可以定义一个数据类型来匹配类型的模式。在上述情况下,它可能看起来像:

^{pr2}$

(注意:有许多不同的方法来定义数据类型。例如,您也可以将其写成np.dtype('f8,f8,i8,i8,?')。有关详细信息,请参阅^{}的文档。)

当您读入数组时,它将是一个带有命名字段的结构化数组。如果您愿意的话,可以稍后将其拆分为单独的数组。(例如series1 = data['a']和上面定义的数据类型)

这样做的主要优点是从磁盘读取数据的速度非常快。Numpy将简单地将所有内容读入内存,然后根据您指定的模式解释内存缓冲区。在

缺点是结构化数组的行为与常规数组稍有不同。如果你不习惯它们,一开始它们可能看起来很混乱。要记住的关键部分是数组中的每个项都是您指定的模式之一。例如,对于我上面展示的,data[0]可能是(4.3, -1.2298, 200, 456, False)之类的东西。在

在标题中读取

另一个常见的情况是,您有一个已知格式的头,然后是一系列常规数据。您仍然可以使用np.fromfile来实现这一点,但是您需要分别解析头。在

首先,读标题。您可以用几种不同的方法来实现这一点(例如,除了np.fromfile之外,还可以看看struct模块,尽管这两种方法都可能对您的目的起到很好的作用)。在

之后,当您将file对象传递给fromfile时,文件的内部位置(即f.seek控制的位置)将位于头的末尾和数据的开头。如果文件的其余部分都是同一类型的数组,则只需调用np.fromfile(f, dtype)。在

作为一个简单的例子,您可能有如下内容:

import numpy as np

# Let's say we have a file with a 512 byte header, the 
# first 16 bytes of which are the width and height 
# stored as big-endian 64-bit integers.  The rest of the
# "main" data array is stored as little-endian 32-bit floats

with open('data.dat', 'r') as f:
    width, height = np.fromfile(f, dtype='>i8', count=2)
    # Seek to the end of the header and ignore the rest of it
    f.seek(512)
    data = np.fromfile(f, dtype=np.float32)

# Presumably we'd want to reshape the data into a 2D array:
data = data.reshape((height, width))

相关问题 更多 >

    热门问题