PyDGE模型
mpydge的Python项目详细描述
米码
数据
一般概念
数据指导的基本工具pandas.DataFrame
。
如果您想使用一些数据,请先用pandas
来读取它。在
很方便将数据分为两种基本类型:分类和数值
(对不起,我们还不支持有序分类),因此我们支持。
目前,pandas
支持多种数据类型,但对于包的
计算您必须将所有需要字段的数据类型设置为以下两种:
'category'
(以便将数据视为分类数据)'float64'
(以便将数据作为数值处理)
所有其他数据类型都将被忽略。您可以评估列的数据类型
按以下方式:print(data['column'].dtype.name
。在
例如,以下'column1'
将被正确地视为分类的:
>>> a = ... # a pandas.DataFrame instance >>> print(a['column1'].dtype.name) 'category'
相反,下面的'column2'
没有被正确地视为数值
输出数据格式
我们使用一个特殊的类来保存数据集的所有组件,包括:
- 列车样品
- 验证样品
- 试验样品
每一个都包含:
- 范畴字段
- 数值场
- 输出字段(可以是分类字段,也可以是数字字段)
我们习惯用Conductor
数据类初始化数据
class Conductor(data_frame, target,
embedding_strategy='default', embedding_explicit=None):
"""
data_frame a pandas.DataFrame instance to use
target a string = name of the target field
embedding_strategy a strategy describing how to embed categorical fields
'default' uses special rule of thumb to embed fields
could be set to None (needs embedding_explicit to be defined)
embedding_explicit if embedding_strategy is None, uses explicitly defined embedding dimensions
"""
初始化后,所有数据都可以通过数据字段以先前描述的方式获得:
import pandas
from mpydge.data_keeper.keeper import Conductor
d = './my_data_set.csv'
data_frame = pandas.read_csv(d)
data_hub = Conductor(data_frame=data_frame, target='my_target_column')
data_hub.data.train # here lies all train data
data_hub.data.validation # here lies all validation data
data_hub.data.test # here lies all test data
# for example, let's take a look at train data
data_hub.data.train.categorical # here lies categorical train data
data_hub.data.train.numerical # here lies numerical train data
data_hub.data.trin.output # here lies output (=target) train data
- 项目
标签: