如何标记和编码2个数据帧?

2024-05-18 23:25:59 发布

您现在位置:Python中文网/ 问答频道 /正文

我有2个数据帧。我需要他们有相同的标签编码,因为我想使用他们的机器学习

dftrain.label.unique()

array(['normal.', 'buffer_overflow.', 'loadmodule.', 'perl.', 'neptune.',
       'smurf.', 'guess_passwd.', 'pod.', 'teardrop.', 'portsweep.',
       'ipsweep.', 'land.', 'ftp_write.', 'back.', 'imap.', 'satan.',
       'phf.', 'nmap.', 'multihop.', 'warezmaster.', 'warezclient.',
       'spy.', 'rootkit.'], dtype=object)

dftest.label.unique()

array(['normal.', 'snmpgetattack.', 'named.', 'xlock.', 'smurf.',
       'ipsweep.', 'multihop.', 'xsnoop.', 'sendmail.', 'guess_passwd.',
       'saint.', 'buffer_overflow.', 'portsweep.', 'pod.', 'apache2.',
       'phf.', 'udpstorm.', 'warezmaster.', 'perl.', 'satan.', 'xterm.',
       'mscan.', 'processtable.', 'ps.', 'nmap.', 'rootkit.', 'neptune.',
       'loadmodule.', 'imap.', 'back.', 'httptunnel.', 'worm.',
       'mailbomb.', 'ftp_write.', 'teardrop.', 'land.', 'sqlattack.',
       'snmpguess.'], dtype=object)

正如您所看到的,测试集中有一些标签在列车集中不存在

  1. 如何对这些标签进行编码,使例如值normal相等 在两个数据帧中都是1
  2. 我应该如何处理测试集中不存在的标签 设置,如果我必须删除他们怎么做

Tags: 数据编码buffer标签arraylabelperlpasswd

热门问题