词向量上numpy数组的分组和聚合问题

2024-09-29 21:48:29 发布

您现在位置:Python中文网/ 问答频道 /正文

我的熊猫数据框如下所示:

Movieid review  movieRating     wordEmbeddingVector
 1       "text"    4          [100 dimensional vector]

我正在尝试运行一个doc2vec实现,我希望能够按电影id分组,并获取wordEmbeddingVector中向量的和,并计算出求和向量和输入向量之间的余弦相似性 我试过了

^{pr2}$

但它似乎运行了很长时间,我想我可能做错了什么。所以我试着去掉相似性函数,只进行分组和求和。但这似乎还没有结束(一个小时以上)我是做错了什么,还是真的那么慢?我的数据帧中有135392行,所以不是很大的。在

movie_groupby = movie_data.groupby('movie_id').agg(lambda v : np.sum(movie_data['textvec']))

非常感谢!在


Tags: 数据textiddatamovie相似性向量review
1条回答
网友
1楼 · 发布于 2024-09-29 21:48:29

你的代码中有一个错误。在lambda函数中,可以对整个数据帧进行求和,而不仅仅是对组进行求和。这样可以解决以下问题:

movie_groupby = movie_data.groupby('movie_id').agg(lambda v: np.sum(v['textvec']))

{{1}必须用{cd2}替换。在

相关问题 更多 >

    热门问题