JSON在Python中实现RDD的Spark

all_user_recipe_rating = [{'rating': 1, 'recipe_id': 8798, 'user_id': 2108}, {'rating': 4, 'recipe_id': 6985, 'user_id': 4236}, {'rating': 4, 'recipe_id': 13572, 'user_id': 2743}, {'rating': 4, 'recipe_id': 6312, 'user_id': 3156}, {'rating': 1, 'recipe_id': 12836, 'user_id': 768}, {'rating': 1, 'recipe_id': 9237, 'user_id': 1599}, {'rating': 2, 'recipe_id': 16946, 'user_id': 2687}, {'rating': 2, 'recipe_id': 20728, 'user_id': 58}, {'rating': 4, 'recipe_id': 12921, 'user_id': 2221}, {'rating': 2, 'recipe_id': 10693, 'user_id': 2114}, {'rating': 2, 'recipe_id': 18301, 'user_id': 4898}, {'rating': 2, 'recipe_id': 9967, 'user_id': 3010}, {'rating': 2, 'recipe_id': 16393, 'user_id': 4830}, {'rating': 4, 'recipe_id': 14838, 'user_id': 583}] ratings_RDD = self.spark.parallelize(all_user_recipe_rating) ratings = ratings_RDD.map(lambda row: (Rating(int(row['user_id']), int(row['recipe_id']), float(row['rating'])))) model = self.build_model(ratings)

File "/usr/local/spark/python/pyspark/mllib/recommendation.py", line 147, in <lambda> user_product = user_product.map(lambda u_p: (int(u_p[0]), int(u_p[1]))) TypeError: int() argument must be a string or a number, not 'Rating'

1条回答

网友

1楼 · 发布于 2024-06-01 08:29:32

嗯

你的错误是由一件事造成的。在

这个异常是关于ALS function的函数predictAll。在

这里的问题是，您试图将一个Rating对象发送给需要接收RDD<int, int>的函数

我拿走了你的代码，构建了你需要的：

>>> from pyspark.mllib.recommendation import Rating
>>> ratings = ratings_RDD.map(lambda row:
...   (Rating(int(row['user_id']),
...    int(row['recipe_id']),
...    float(row['rating']))))
>>> model = ALS.trainImplicit(ratings, 1, seed=10)
>>> to_predict = spark.parallelize([[2108, 16393], [583, 20728]])
>>> model.predictAll(to_predict).take(2)
[Rating(user=583, product=20728, rating=0.0741161997082127), Rating(user=2108, product=16393, rating=0.05669039815320609)]

您的JSON没有错，当您调用predictAll时，您遇到的问题是您发送的是Rating对象，而不是RDD<int, int>

相关问题更多 >

编程相关推荐

热门问题

热门文章