如何用橙色创建新的数据表?

2024-05-16 08:09:56 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在使用Orange(在Python中)执行一些数据挖掘任务。更具体地说,对于集群。尽管我已经完成了教程并阅读了大部分文档,但我仍然有一个问题。 文档和教程中的所有示例都假设我有一个包含数据的制表符分隔表。然而,没有什么可以说明如何从头开始创建一个新表。例如,我想为不同文档中的单词频率创建一个表。

也许我漏掉了什么,所以如果有人有什么见解,我会很感激的。

谢谢 乔治

编辑:

这就是我创建表的方式

#First construct the domain object (top row)
vars = []
for var in variables:
    vars.append(Orange.data.variable.Continuous(str(var)))
domain = Orange.data.Domain(vars, classed) #The second argument indicated that the last attr must not be a class    
#Add data rows assuming we have a matrix 
t = Orange.data.Table(domain, matrix)        

Tags: the数据文档数据挖掘示例datavardomain
2条回答

如果你问我,文件确实不够。这可能不是问题的答案,但对其他人可能有帮助。我花了几个小时试图使用构造函数和域创建一个表,而不是仅仅为了一个关联规则挖掘任务,最后发现创建表的最简单方法是将数据写入扩展名为.tab或.basket的文件,然后从中创建一个表。

Orange.data.Table("yourFile.basket")

当然,文件的结构需要正确。请参阅datasets/中橙色包目录中提供的示例文件

我花了好几个小时才弄明白。在python中,执行以下操作:

Import Orange
List, Of, Column, Variables = [Orange.feature.Discrete(x) for x in ['What','Theyre','Called','AsStrings']]
Domain = Orange.data.Domain([List, Of, Column, Variables])
Table = Orange.data.Table(Domain)
Table.save('NewTable.tab')

我会告诉你每一段代码的作用,但到现在为止我还不确定。有趣的是,如此强大的工具包应该有如此难以理解的文档,但我怀疑这是因为它的整个用户群都有博士学位。

相关问题 更多 >