如何根据元数据将电影多标签分类到电影节，其中元数据主要是单个单词？ - 问答 - Python中文网

如何根据元数据将电影多标签分类到电影节，其中元数据主要是单个单词？

2024-05-18 06:52:47 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我已经创建了过去几年制作的各种电影的数据集，技术人员为电影、类型、它所代表的国家、运行时间、语言、电影赢得的各个电影节工作，等等

数据集类似于this，它是一个excel文件

我感兴趣的是根据电影的固有特征（无论情节如何）将电影多标签分类到电影节

我认为我们需要使用数字/向量来对数据进行多标签分类。但是，我不知道如何实现名称（专有名词）的矢量化和几个单独的单词

是否有其他方法可以执行此过程，以实现使用上述数据进行多标签分类的目标？请帮我确认一下。多谢各位

Tags：文件数据语言类型电影时间分类代表

1条回答

网友

1楼 · 发布于 2024-05-18 06:52:47

这里的数据集是表格数据。您需要对表格数据进行矢量化，以便能够将其传递给分类模型

表格数据通常由以下内容组成：

连续功能（例如：imdb评级、运行时）
分类特征（例如：数据集中的所有其他特征）

表格数据的矢量化只是每个特征的矢量表示的串联。对于连续要素，应将值标准化。对于分类功能，您应该对其进行热编码

注意：对于您的数据集，您有3个“类似文本”的功能：标题、导演和作者：

片名：片名是其电影独有的，因此您的模型无法从中学习到任何东西，因此您应该从数据集中丢弃它
导演和作者：你应该把它们当作分类变量，而不是文本。如果您使用文本矢量化技术（单词包或TF-IDF）对它们进行编码，这意味着您假设像Pedro这样的单词可以具有预测能力。佩德罗·冈萨雷斯·卢比奥和佩德罗·阿尔莫多瓦之间有共同点吗？如果有的话，也许他们都会说西班牙语，但我更愿意将其作为一项功能添加到您的模型中（例如：language_of_director）

相关问题更多 >

编程相关推荐

热门问题

热门文章