如何使用pyspark读取存储在HDFS中的Nifti(.nii)文件?

2024-07-05 08:30:15 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试制作一个模型来训练nii格式的图像。我可以用nibabel库从本地文件系统读取文件,但是我没有找到任何合适的库来用pyspark从hdfs读取nii文件。我也尝试用spark二进制读取。所有的技术都做得不好。你知道吗

我可以用nibabel库从本地文件系统读取文件,但是我没有找到任何合适的库来使用pyspark从hdfs读取nii文件。我也试着用spark二进制来读,我也试着复制到object并作为object来读。你知道吗

下面是我如何阅读JPG图片进行训练的代码。同样,我需要阅读nii文件。你知道吗

from sparkdl import readImages
from pyspark.sql.functions import lit
img_dir = "MRI_dataset"

AD_df = readImages(img_dir + "/ADTest").withColumn("label", lit(1))
HO_df = readImages(img_dir + "/HOTest").withColumn("label", lit(0))
MCI_df = readImages(img_dir + "/MCITest").withColumn("label", lit(2))



train_df,test_df = (AD_df.unionAll(HO_df)).unionAll(MCI_df).randomSplit([0.6, 0.4], seed = 42)

train_df = train_df.repartition(100)
test_df = test_df.repartition(100)

Tags: 文件testdfimgdirtrainhdfslabel