我正在使用Orange(在Python中)执行一些数据挖掘任务。更具体地说,对于集群。尽管我已经完成了教程并阅读了大部分文档,但我仍然有一个问题。 文档和教程中的所有示例都假设我有一个包含数据的制表符分隔表。然而,没有什么可以说明如何从头开始创建一个新表。例如,我想为不同文档中的单词频率创建一个表。
也许我漏掉了什么,所以如果有人有什么见解,我会很感激的。
谢谢 乔治
这就是我创建表的方式
#First construct the domain object (top row)
vars = []
for var in variables:
vars.append(Orange.data.variable.Continuous(str(var)))
domain = Orange.data.Domain(vars, classed) #The second argument indicated that the last attr must not be a class
#Add data rows assuming we have a matrix
t = Orange.data.Table(domain, matrix)
如果你问我,文件确实不够。这可能不是问题的答案,但对其他人可能有帮助。我花了几个小时试图使用构造函数和域创建一个表,而不是仅仅为了一个关联规则挖掘任务,最后发现创建表的最简单方法是将数据写入扩展名为.tab或.basket的文件,然后从中创建一个表。
当然,文件的结构需要正确。请参阅datasets/中橙色包目录中提供的示例文件
我花了好几个小时才弄明白。在python中,执行以下操作:
我会告诉你每一段代码的作用,但到现在为止我还不确定。有趣的是,如此强大的工具包应该有如此难以理解的文档,但我怀疑这是因为它的整个用户群都有博士学位。
相关问题 更多 >
编程相关推荐