numpy怎么能比我的Fortran程序快这么多呢？

integer gridsize,unit,j real mini,maxi double precision mean gridsize=512 unit=40 open(unit=unit,file='T.out',status='old',access='stream',& form='unformatted',action='read') read(unit=unit) tmp mini=tmp maxi=tmp mean=tmp do j=2,gridsize**3 read(unit=unit) tmp if(tmp>maxi)then maxi=tmp elseif(tmp<mini)then mini=tmp end if mean=mean+tmp end do mean=mean/gridsize**3 close(unit=unit)

import numpy mmap=numpy.memmap('T.out',dtype='float32',mode='r',offset=4,\ shape=(512,512,512),order='F') mini=numpy.amin(mmap) maxi=numpy.amax(mmap) mean=numpy.mean(mmap)

2条回答

网友

1楼 · 编辑于 2024-05-19 21:14:27

Fortran实现有两个主要缺点：

您可以混合IO和计算（并逐项读取文件项）。
不使用向量/矩阵运算。

此实现执行的操作与您的相同，在我的计算机上速度快20倍：

program test
  integer gridsize,unit
  real mini,maxi,mean
  real, allocatable :: tmp (:,:,:)

  gridsize=512
  unit=40

  allocate( tmp(gridsize, gridsize, gridsize))

  open(unit=unit,file='T.out',status='old',access='stream',&
       form='unformatted',action='read')
  read(unit=unit) tmp

  close(unit=unit)

  mini = minval(tmp)
  maxi = maxval(tmp)
  mean = sum(tmp)/gridsize**3
  print *, mini, maxi, mean

end program

其思想是一次性将整个文件读入一个数组tmp。然后，我可以直接在数组上使用函数^{}、^{}和^{}。

对于精度问题：只需使用双精度值，并在运行时进行转换

mean = sum(real(tmp, kind=kind(1.d0)))/real(gridsize**3, kind=kind(1.d0))

只会略微增加计算时间。我试着以片段的方式执行操作元素，但这只增加了默认优化级别所需的时间。

在-O3处，按元素添加比数组操作执行大约3%的操作。在我的机器上，双精度操作和单精度操作之间的差异平均不到2%（单个运行的偏差要大得多）。

下面是一个使用LAPACK的快速实现：

program test
  integer gridsize,unit, i, j
  real mini,maxi
  integer  :: t1, t2, rate
  real, allocatable :: tmp (:,:,:)
  real, allocatable :: work(:)
!  double precision :: mean
  real :: mean
  real :: slange

  call system_clock(count_rate=rate)
  call system_clock(t1)
  gridsize=512
  unit=40

  allocate( tmp(gridsize, gridsize, gridsize), work(gridsize))

  open(unit=unit,file='T.out',status='old',access='stream',&
       form='unformatted',action='read')
  read(unit=unit) tmp

  close(unit=unit)

  mini = minval(tmp)
  maxi = maxval(tmp)

!  mean = sum(tmp)/gridsize**3
!  mean = sum(real(tmp, kind=kind(1.d0)))/real(gridsize**3, kind=kind(1.d0))
  mean = 0.d0
  do j=1,gridsize
    do i=1,gridsize
      mean = mean + slange('1', gridsize, 1, tmp(:,i,j),gridsize, work)
    enddo !i
  enddo !j
  mean = mean / gridsize**3

  print *, mini, maxi, mean
  call system_clock(t2)
  print *,real(t2-t1)/real(rate)

end program

这在矩阵列上使用单精度矩阵1-范数^{}。运行时甚至比使用单精度数组函数的方法更快，而且不显示精度问题。

网友

2楼 · 编辑于 2024-05-19 21:14:27

numpy的速度更快，因为您用python编写的代码效率更高（而且numpy后端的大部分代码都是用优化的Fortran和C编写的），而Fortran编写的代码效率非常低。

看看你的python代码。一次加载整个数组，然后调用可以对数组进行操作的函数。

看看你的fortran代码。一次只读取一个值并对其执行分支逻辑。

您的大部分差异是您用Fortran编写的零碎IO。

你可以像编写python一样编写Fortran，这样你会发现它运行得更快。

program test
  implicit none
  integer :: gridsize, unit
  real :: mini, maxi, mean
  real, allocatable :: array(:,:,:)

  gridsize=512
  allocate(array(gridsize,gridsize,gridsize))
  unit=40
  open(unit=unit, file='T.out', status='old', access='stream',&
       form='unformatted', action='read')
  read(unit) array    
  maxi = maxval(array)
  mini = minval(array)
  mean = sum(array)/size(array)
  close(unit)
end program test

相关问题更多 >

编程相关推荐

热门问题

热门文章