2024-05-18 06:52:47 发布
网友
我已经创建了过去几年制作的各种电影的数据集,技术人员为电影、类型、它所代表的国家、运行时间、语言、电影赢得的各个电影节工作,等等
数据集类似于this,它是一个excel文件
我感兴趣的是根据电影的固有特征(无论情节如何)将电影多标签分类到电影节
我认为我们需要使用数字/向量来对数据进行多标签分类。但是,我不知道如何实现名称(专有名词)的矢量化和几个单独的单词
是否有其他方法可以执行此过程,以实现使用上述数据进行多标签分类的目标?请帮我确认一下。多谢各位
这里的数据集是表格数据。您需要对表格数据进行矢量化,以便能够将其传递给分类模型
表格数据通常由以下内容组成:
表格数据的矢量化只是每个特征的矢量表示的串联。 对于连续要素,应将值标准化。对于分类功能,您应该对其进行热编码
注意: 对于您的数据集,您有3个“类似文本”的功能:标题、导演和作者:
Pedro
这里的数据集是表格数据。您需要对表格数据进行矢量化,以便能够将其传递给分类模型
表格数据通常由以下内容组成:
表格数据的矢量化只是每个特征的矢量表示的串联。 对于连续要素,应将值标准化。对于分类功能,您应该对其进行热编码
注意: 对于您的数据集,您有3个“类似文本”的功能:标题、导演和作者:
Pedro
这样的单词可以具有预测能力。佩德罗·冈萨雷斯·卢比奥和佩德罗·阿尔莫多瓦之间有共同点吗?如果有的话,也许他们都会说西班牙语,但我更愿意将其作为一项功能添加到您的模型中(例如:language_of_director)相关问题 更多 >
编程相关推荐