我有以下四个列表,它们是图像的文件名,文件名的格式如下:
(疾病)-(随机患者ID)-(该患者的图像编号)
单个患者可以对每个疾病有多个图像
请参见以下各部分:
print(train_cnv_list[0:3])
print(train_dme_list[0:3])
print(train_drusen_list[0:3])
print(train_normal_list[0:3])
>>>
['CNV-9911627-77.jpeg', 'CNV-9935363-45.jpeg', 'CNV-9911627-94.jpeg']
['DME-8889850-2.jpeg', 'DME-8773471-3.jpeg', 'DME-8797076-11.jpeg']
['DRUSEN-8986660-50.jpeg', 'DRUSEN-9100857-3.jpeg', 'DRUSEN-9025088-5.jpeg']
['NORMAL-9490249-31.jpeg', 'NORMAL-9509694-5.jpeg', 'NORMAL-9504376-3.jpeg']
我想弄清楚:
patient - disease1 - total number of images
- disease2 - total number of images
- disease3 - total number of images
其中图像总数为最大值(该患者的图像数)
我确实看到这会产生一个患者id:
train_cnv_list[0][4:11]
>>> 9911627
提前感谢您的指导
这里有一些函数可能会让你走上正确的轨道,但是正如@rick-supports-monica提到的,这是熊猫的一个很好的用例。您将更容易处理数据
从
get_duplicates
可以使用返回的患者ID从那里查找任何您想要的内容。我不确定我是否完全理解列表的结构。它看起来像{disease}-{patient_id}-{some_other_int}.jpg
。我不知道如何在不进一步了解输入的情况下为功能添加额外的查找我提到了pandas,但没有提到如何使用它,这里有一种方法可以将现有数据放入数据框:
从创建定义良好的数据结构开始,使用计数器回答第一个问题
您可以轻松地使用熊猫:
结果:
甚至比你现在拥有的数据帧还多
相关问题 更多 >
编程相关推荐