我正在研究亚马逊评论数据集。 目标是提取每个产品的积极和消极特征
例如:对于“本产品的电池寿命很长”这句话,我想把“电池”这个词提取出来作为一个积极的特征
数据集包含以下字段:
审阅者ID-审阅者的ID,例如A2SUAM1J3GNN3B
asin-产品的ID,例如0000013714
审核人姓名-审核人姓名
帮助性-审查的帮助性评级,如2/3
审查文本-审查文本
总体-产品评级
摘要-审查摘要
unixReviewTime-审核时间(unix时间)
审核时间-审核时间(原始)
到目前为止,我将评论分为两个列表:正面评论和负面评论
积极的_评论=所有有评级的评论>;3. ,负面评论=所有有评级的评论<;三,
我清理了文本并标记了它。在那之后,我提取了在形容词之后出现的名词,希望这些特定的名词将是我正在寻找的特征。 在那之后,我尝试使用聚类算法(k-means,DBSCAN),希望它能够创建一个组来表示我想要提取的特征
结果一点也不好,我希望这里的人能想出一个办法让它发挥作用
您可能希望探索主题建模,而不是集群;这将让你从你的评论中引出一般的主题
Here's a guide
相关问题 更多 >
编程相关推荐