我的熊猫数据框如下所示:
Movieid review movieRating wordEmbeddingVector
1 "text" 4 [100 dimensional vector]
我正在尝试运行一个doc2vec实现,我希望能够按电影id分组,并获取wordEmbeddingVector中向量的和,并计算出求和向量和输入向量之间的余弦相似性 我试过了
^{pr2}$但它似乎运行了很长时间,我想我可能做错了什么。所以我试着去掉相似性函数,只进行分组和求和。但这似乎还没有结束(一个小时以上)我是做错了什么,还是真的那么慢?我的数据帧中有135392行,所以不是很大的。在
movie_groupby = movie_data.groupby('movie_id').agg(lambda v : np.sum(movie_data['textvec']))
非常感谢!在
你的代码中有一个错误。在lambda函数中,可以对整个数据帧进行求和,而不仅仅是对组进行求和。这样可以解决以下问题:
{{1}必须用{cd2}替换。在
相关问题 更多 >
编程相关推荐