NLP亚马逊评论特征提取

2024-10-02 10:21:24 发布

男 | 程序猿一只，喜欢编程写python代码。

我正在研究亚马逊评论数据集。目标是提取每个产品的积极和消极特征

例如：对于“本产品的电池寿命很长”这句话，我想把“电池”这个词提取出来作为一个积极的特征

数据集包含以下字段：

审阅者ID-审阅者的ID，例如A2SUAM1J3GNN3B

asin-产品的ID，例如0000013714

审核人姓名-审核人姓名

帮助性-审查的帮助性评级，如2/3

审查文本-审查文本

总体-产品评级

摘要-审查摘要

unixReviewTime-审核时间（unix时间）

审核时间-审核时间（原始）

到目前为止，我将评论分为两个列表：正面评论和负面评论

积极的_评论=所有有评级的评论>；3. ，负面评论=所有有评级的评论<；三,

我清理了文本并标记了它。在那之后，我提取了在形容词之后出现的名词，希望这些特定的名词将是我正在寻找的特征。在那之后，我尝试使用聚类算法（k-means，DBSCAN），希望它能够创建一个组来表示我想要提取的特征

结果一点也不好，我希望这里的人能想出一个办法让它发挥作用

Tags：数据文本 id 目标电池产品时间评论

1条回答

网友

1楼 · 发布于 2024-10-02 10:21:24

您可能希望探索主题建模，而不是集群；这将让你从你的评论中引出一般的主题