如何根据元数据将电影多标签分类到电影节,其中元数据主要是单个单词?

2024-05-18 06:52:47 发布

您现在位置:Python中文网/ 问答频道 /正文

我已经创建了过去几年制作的各种电影的数据集,技术人员为电影、类型、它所代表的国家、运行时间、语言、电影赢得的各个电影节工作,等等

数据集类似于this,它是一个excel文件

我感兴趣的是根据电影的固有特征(无论情节如何)将电影多标签分类到电影节

我认为我们需要使用数字/向量来对数据进行多标签分类。但是,我不知道如何实现名称(专有名词)的矢量化和几个单独的单词

是否有其他方法可以执行此过程,以实现使用上述数据进行多标签分类的目标?请帮我确认一下。多谢各位


Tags: 文件数据语言类型电影时间分类代表
1条回答
网友
1楼 · 发布于 2024-05-18 06:52:47

这里的数据集是表格数据。您需要对表格数据进行矢量化,以便能够将其传递给分类模型

表格数据通常由以下内容组成:

  1. 连续功能(例如:imdb评级、运行时)
  2. 分类特征(例如:数据集中的所有其他特征)

表格数据的矢量化只是每个特征的矢量表示的串联。 对于连续要素,应将值标准化。对于分类功能,您应该对其进行热编码

注意: 对于您的数据集,您有3个“类似文本”的功能:标题、导演和作者:

  • 片名:片名是其电影独有的,因此您的模型无法从中学习到任何东西,因此您应该从数据集中丢弃它
  • 导演和作者:你应该把它们当作分类变量,而不是文本。如果您使用文本矢量化技术(单词包或TF-IDF)对它们进行编码,这意味着您假设像Pedro这样的单词可以具有预测能力。佩德罗·冈萨雷斯·卢比奥和佩德罗·阿尔莫多瓦之间有共同点吗?如果有的话,也许他们都会说西班牙语,但我更愿意将其作为一项功能添加到您的模型中(例如:language_of_director)

相关问题 更多 >