我相信这段代码导致我的X和Y数据不一致,因为它们的索引号不同。它们是否应该相同,以便模型知道哪个输入与哪个标签相关
x_train, x_valid, y_train, y_valid = train_test_split(Normalise_Data(data), labels, test_size=0.2,shuffle=True)
这是此函数的输入和标签的终端输出。 索引是否应该不对应
x_train
Out[94]:
0 1 2 3 ... 4605 4606 4607 4608
114 0.999399 0.000000 0.000000 0.0 ... 0.000025 0.000048 0.000016 0.000038
44 0.995420 0.000000 0.000000 0.0 ... 0.000066 0.000103 0.000058 0.000040
160 0.999492 0.000000 0.000000 0.0 ... 0.000021 0.000024 0.000044 0.000028
293 0.999893 0.000000 0.000250 0.0 ... 0.000002 0.000007 0.000014 0.000003
129 0.999458 0.000885 0.000976 0.0 ... 0.000005 0.000034 0.000044 0.000048
.. ... ... ... ... ... ... ... ... ...
176 0.999750 0.000041 0.000000 0.0 ... 0.000032 0.000039 0.000034 0.000029
241 0.999832 0.000000 0.000000 0.0 ... 0.000005 0.000005 0.000017 0.000003
283 0.999927 0.000170 0.000094 0.0 ... 0.000007 0.000009 0.000010 0.000012
405 0.998595 0.000000 0.000000 0.0 ... 0.000051 0.000087 0.000019 0.000031
267 0.999899 0.000000 0.000254 0.0 ... 0.000011 0.000016 0.000015 0.000020
y_train
Out[95]:
567 0
44 0
884 0
1902 0
676 0
..
1003 0
1475 0
1826 0
302 1
1718 0
Name: prediction, Length: 427, dtype: int64
train_test_split
将允许您使用pd.DataFrame
和pd.Series
es,但它不使用索引来决定与什么相关的内容-它只是偏离了内容呈现的顺序:只需将输入更改为
Normalize_Data(data).sort_index()
和labels.sort_index()
,就可以很容易地解决这个问题相关问题 更多 >
编程相关推荐