我的数据集由可视化的二进制文件组成。这些二进制文件是malware family 1
或malware family 2
的一部分。这些灰度图像具有非常特殊的特征。一些示例(上部族1、下部族2):
共有2474个malware family 1
样本和2930个malware family 2
样本。
正如我们所看到的,同一家族样本之间的相似性非常强。CNN不应该有太多的问题来对它们进行分类
尽管如此,我使用的CNN只能达到大约50%的准确率(0.25%的损失)。除此之外,我还实现了InceptionV3
模型。但该模型也只能实现50%的准确率(0.50%的损失)。这里可能有什么错误
加载图像:
idx = 0
for elem in os.listdir(directory):
img = cv2.imread(full_path,cv2.IMREAD_UNCHANGED)
if idx in train_index:
dataset4_x_train.append(img)
dataset4_y_train.append(0)
else:
dataset4_x_test.append(img)
dataset4_y_test.append(0)
dataset4_x_train = np.array(dataset4_x_train)
dataset4_x_test = np.array(dataset4_x_test)
dataset4_x_train = dataset4_x_train.reshape(-1, 192, 192, 1)
dataset4_x_test = dataset4_x_test.reshape(-1, 192, 192, 1)
自定义CNN:
model = Sequential()
model.add(tf.keras.layers.Conv2D(8, 5, activation="relu", input_shape=(192,192,1)))
model.add(tf.keras.layers.MaxPool2D(2))
model.add(tf.keras.layers.Conv2D(8, 3, activation="relu"))
model.add(tf.keras.layers.MaxPool2D(2))
model.add(tf.keras.layers.Conv2D(8, 3, activation="relu"))
model.add(tf.keras.layers.MaxPool2D(2))
model.add(tf.keras.layers.Conv2D(8, 3, activation="relu"))
model.add(tf.keras.layers.MaxPool2D(2))
model.add(tf.keras.layers.Conv2D(16, 3, activation="relu"))
model.add(tf.keras.layers.MaxPool2D(2))
model.add(tf.keras.layers.Conv2D(80, 4, activation="relu"))
model.add(tf.keras.layers.Flatten())
model.add(tf.keras.layers.Dense(2, activation='softmax'))
opt = tf.keras.optimizers.Adam(lr=0.01)
model.compile(opt, loss="mse",metrics=['accuracy'])
model.fit(dataset4_x_train, dataset4_y_train, epochs=100, batch_size=50)
model.evaluate(dataset4_x_test, dataset4_y_test)
接收v3:
incept_v3 = tf.keras.applications.inception_v3.InceptionV3(input_shape=(192,192,1), include_top=False, weights=None)
incept_v3.summary()
last_output = incept_v3.get_layer("mixed10").output
x = tf.keras.layers.Flatten()(last_output)
x = tf.keras.layers.Dense(2, activation="softmax")(x)
model = tf.keras.Model(incept_v3.input, x)
opt = tf.keras.optimizers.Adam(lr=0.001)
model.compile(opt, loss="mse",metrics=['accuracy'])
model.fit(dataset4_x_train, dataset4_y_train, epochs=100, batch_size=50)
model.evaluate(dataset4_x_test, dataset4_y_test)
您的模型与数据集拟合不足,这就是您的精度较低的原因。
幸运的是,增加模型大小可以解决问题。
同样,增加模型尺寸会使其更容易过度拟合。为了解决这个问题,我建议使用如下所示的退出层。
这是一个二元分类问题,对于这个问题
binary_crossentropy
损失函数将更好地工作,并且收敛到更高精度的低学习MSE通常用于回归问题,听起来您的任务更像是分类,所以您应该使用不同的损失函数。例如,您可以使用
tf.keras.losses.BinaryCrossentropy
。这很可能是精度低的主要原因此外,CNN通常有多个隐藏的线性层,例如下面的。与上述情况相比,这通常对性能的影响相对较小
相关问题 更多 >
编程相关推荐