词向量上numpy数组的分组和聚合问题

2024-09-29 21:48:29 发布

男 | 程序猿一只，喜欢编程写python代码。

我的熊猫数据框如下所示：

Movieid review  movieRating     wordEmbeddingVector
 1       "text"    4          [100 dimensional vector]

我正在尝试运行一个doc2vec实现，我希望能够按电影id分组，并获取wordEmbeddingVector中向量的和，并计算出求和向量和输入向量之间的余弦相似性我试过了

^{pr2}$

但它似乎运行了很长时间，我想我可能做错了什么。所以我试着去掉相似性函数，只进行分组和求和。但这似乎还没有结束（一个小时以上）我是做错了什么，还是真的那么慢？我的数据帧中有135392行，所以不是很大的。在

movie_groupby = movie_data.groupby('movie_id').agg(lambda v : np.sum(movie_data['textvec']))

非常感谢！在

Tags：数据 text id data movie 相似性向量 review

1条回答

网友

1楼 · 发布于 2024-09-29 21:48:29

你的代码中有一个错误。在lambda函数中，可以对整个数据帧进行求和，而不仅仅是对组进行求和。这样可以解决以下问题：

movie_groupby = movie_data.groupby('movie_id').agg(lambda v: np.sum(v['textvec']))

{{1}必须用{cd2}替换。在