<p>我正在为一个计算生物学研究项目整理一些数据。然而,一个问题即将出现,一些狗出生从同一窝在同一天有相同的母亲,但多个父亲。我需要找到这些数据点并返回它们,以便手动返回到文档并检查它们。有没有人知道一个更好的方法,使每一套不需要30多分钟完成?你知道吗</p>
<p>到目前为止,我一直在尝试使用pandas来浏览数据,我不是CS向导。我基本上使用for循环逐个检查数据,即使是较小的数据集也有大约10k的数据。你知道吗</p>
<pre class="lang-py prettyprint-override"><code>data = raw_data.loc[:,['Order', 'Name', 'Sire', 'Dam', 'Registration', 'DOB']]
length = len(data.index)
for i in range(0,length,1):
for j in range(i+1,length,1):
if (data.iat[i,5]==data.iat[j,5]): #Same date of birth
if (data.iat[i,3]==data.iat[j,3]): #Same mother
if (data.iat[i,2]!= data.iat[j,2]): #Different father
print(data.iat[i,0]+data.iat[j,0])
</code></pre>