PyDGE模型

mpydge的Python项目详细描述


米码

数据

一般概念 数据指导的基本工具pandas.DataFrame。 如果您想使用一些数据,请先用pandas来读取它。在

很方便将数据分为两种基本类型:分类和数值 (对不起,我们还不支持有序分类),因此我们支持。 目前,pandas支持多种数据类型,但对于包的 计算您必须将所有需要字段的数据类型设置为以下两种:

  • 'category'(以便将数据视为分类数据)
  • 'float64'(以便将数据作为数值处理)

所有其他数据类型都将被忽略。您可以评估列的数据类型 按以下方式:print(data['column'].dtype.name。在

例如,以下'column1'将被正确地视为分类的:

>>> a = ... # a pandas.DataFrame instance
>>> print(a['column1'].dtype.name)
'category'

相反,下面的'column2'没有被正确地视为数值

^{pr2}$

输出数据格式

我们使用一个特殊的类来保存数据集的所有组件,包括:

  • 列车样品
  • 验证样品
  • 试验样品

每一个都包含:

  • 范畴字段
  • 数值场
  • 输出字段(可以是分类字段,也可以是数字字段)

我们习惯用Conductor数据类初始化数据

class Conductor(data_frame, target, 
                embedding_strategy='default', embedding_explicit=None):
                """
                data_frame            a pandas.DataFrame instance to use
                target                a string = name of the target field
                embedding_strategy    a strategy describing how to embed categorical fields
                                      'default' uses special rule of thumb to embed fields
                                      could be set to None (needs embedding_explicit to be defined)
                embedding_explicit    if embedding_strategy is None, uses explicitly defined embedding dimensions
                """

初始化后,所有数据都可以通过数据字段以先前描述的方式获得:

import pandas
from mpydge.data_keeper.keeper import Conductor

d = './my_data_set.csv'
data_frame = pandas.read_csv(d)
data_hub = Conductor(data_frame=data_frame, target='my_target_column')

data_hub.data.train               # here lies all train data
data_hub.data.validation          # here lies all validation data
data_hub.data.test                # here lies all test data

# for example, let's take a look at train data
data_hub.data.train.categorical   # here lies categorical train data
data_hub.data.train.numerical     # here lies numerical train data
data_hub.data.trin.output         # here lies output (=target) train data

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java Mac OS无法运行。Jar文件   Eclipse中java不可引发的POM错误   java指定用于bean的验证组   并发性如何确保Java方法中2条语句的顺序和完整执行   java为什么在抽象类中需要构造函数?   java使用链接打开我的Android应用程序   java允许在用户使用代码时选择一个或另一个名称   在Java中插入日期以访问数据库   将GWT RequestFactory与Grails一起使用时出现java类加载器问题   java JPA开始事务瓶颈   使用com从java中的json数组解析json对象。fasterxml。杰克逊。数据绑定。JsonNode;   如何正确处理最大/最小int值   java动态报表导出pdf类未找到异常错误   尽量不重复我自己(安卓/java)   java为什么Eclipse抱怨不安全的类型转换?   Java重写列表的键处理   java如何知道BigDecimal是否可以精确地转换为float或double?