我对这个话题很陌生。我目前正在开发一种潜在因子矩阵分解,它将作为神经网络的训练数据。在
我有一个这样的csv表:
user_id song_id playcount
frank SOBYHAJ12A6701BF1D 23
john SODACBL12A8C13C273 1
john SODXRTY12AB0180F3B 3
mary SOFRQTD12A81C233C0 1
你可以把这个表看作是矩阵的描述。我想建立一个矩阵:
^{pr2}$我已经将数据加载到熊猫数据框中:
triplets_training_set = pd.read_csv(filepath)
现在我想用这些数据建立一个稀疏矩阵。在
另一个问题:
是否需要对值进行矢量化?i、 e.将“b80344d063b5ccb3212f76538f3d9e43d87dca9e”转换为整数用户标识?(相同 使用song_id)
我读过这样的问题,但我不知道如何处理最后一个问题
我想出的唯一解决办法是先做两个句子:
{ frank: 1, john: 2, mary:3, ..}
{ SOBYHAJ12A6701BF1D:1 , SODACBL12A8C13C273:2. ..}
然后逐行迭代数据帧三元组训练集构造矩阵。但这是一个天真的解决办法。一定有更好的。在
提前谢谢!在
这是你想要的吗?在
可以使用^{} 将}字段编码为整数。这些可以作为矩阵的索引。从那里我将使用您从^{} 中选择的矩阵来加载数据。如下所示:
user_id
和{相关问题 更多 >
编程相关推荐