如何使用scikits加载数据集

2024-09-29 04:29:50 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在研究推荐系统,并尝试使用scikits.螃蟹在推荐系统中使用基本算法的包。 然而,在每个教程中,在示例中,他们只是使用scikits自己的数据集,而我没有找到任何关于如何加载外部数据集的信息(例如从我的计算机上加载) 这是您在每个scikit教程中看到的。螃蟹:

from scikits.crab import datsets
movies=datsets.load_sample_movies()
model=MatrixPreferenceDataModel(movies.data)

然而,正如我所说的,我需要从我的机器中加载一个可以由scikits方法使用的数据集


Tags: 数据fromimport算法信息示例系统计算机
1条回答
网友
1楼 · 发布于 2024-09-29 04:29:50

Here是crab教程的相关部分。在

在上面的示例中,您只使用电影.数据你的模型字段。电影.数据如下所示:

>>> print movies.data
{1: {1: 3.0, 2: 4.0, 3: 3.5, 4: 5.0, 5: 3.0},
 2: {1: 3.0, 2: 4.0, 3: 2.0, 4: 3.0, 5: 3.0, 6: 2.0},
 3: {2: 3.5, 3: 2.5, 4: 4.0, 5: 4.5, 6: 3.0},
 4: {1: 2.5, 2: 3.5, 3: 2.5, 4: 3.5, 5: 3.0, 6: 3.0},
 5: {2: 4.5, 3: 1.0, 4: 4.0},
 6: {1: 3.0, 2: 3.5, 3: 3.5, 4: 5.0, 5: 3.0, 6: 1.5},
 7: {1: 2.5, 2: 3.0, 4: 3.5, 5: 4.0}}

这只是一个字典,其中的键是用户(这里用1、2、3、4、5、6和7表示),值是另一个字典,其中key是电影ID,value是分级。所以你只需要构造一个嵌套字典。在

从以下源代码中加载作者的.csv数据:

^{pr2}$

此数据所在的.csv文件格式如下:

Jack Matthews;Lady in the Water;3.0
Jack Matthews;Snakes on a Planet;4.0
Jack Matthews;You, Me and Dupree;3.5
Jack Matthews;Superman Returns;5.0
Jack Matthews;The Night Listener;3.0
Mick LaSalle;Lady in the Water;3.0
Mick LaSalle;Snakes on a Planet;4.0
Mick LaSalle;Just My Luck;2.0
Mick LaSalle;Superman Returns;3.0
Mick LaSalle;You, Me and Dupree;2.0
Mick LaSalle;The Night Listener;3.0

因此,如果您想创建自己的数据集,您有两个选择。或者自己将其格式化为推荐者需要的字典格式,或者根据他们的导入编写一个方法来为您格式化它。在

这个项目似乎没有一个通用的“从csv导入”的方法,我可能只是错过了它,只是浏览了一下而已。在

幸运的是,由于推荐者似乎只需要字典,所以您不需要额外的描述文件和所有这些,只要正确格式化您的数据就足够了。在

相关问题 更多 >