机器学习中的数据帧变换

tdml的Python项目详细描述


用于机器学习的转换数据帧

versionLicense

一个轻量级且易于使用的Python包,可以将数据帧转换为机器学习友好的数据格式。在

当前的数据帧,包括Pandas和PySpark,被广泛用于处理表格数据。这些包为数据处理提供了丰富的功能和优化。但是在处理之后,数据通常被输入到机器学习或深度学习模型中,这些模型是由其他ML包构造的。在这一步中,用户需要花费时间将数据帧转换为数组或张量,将数据拆分为多个集合,将类别数据映射为整数,甚至用向量表示文本数据。为了使整个过程更加高效,TDML通过解决前面提到的难题来连接数据帧和ML框架。目前,TDML提供的功能包括:

  • 自动将数据帧(Pandas或PySpark)转换为ML框架(NumPy、PyTorch或TensorFlow)数组或张量。在
  • 将分类数据映射为整数,按词包表示文本数据,支持文本转换的自定义项。在
  • 通过一行代码将转换后的数据拆分为多个集合(列车测试或列车验证测试)。在
  • 支持拆分后列车组的重组。在

示例

cd examples/numpy
python simple_sklearn_regression.py

有关更多示例,请转到examples文件夹。在

测试

请参考tests。在

联系人

zecheng@cs.stanford.edu

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何通过解决错误“活动无法转换为片段”将片段传递给类构造函数?   Java中清理Code39条码数据的regex帮助   将java转换为C++   java无法在Android Studio中生成签名的apk,出现错误   从数学方程出发   MySQL和Java内存问题   如何强制Java抛出算术异常?   java为什么JDBC将零端口视为空(默认)端口?   java如何在没有“changelog主题”的情况下加入KStream和KTable   排序我尝试合并两个排序的数组,但得到的是java。lang.ArrayIndexOutofBounds异常:5无法找出原因   如何在java中求大长度矩阵的逆?   基于maven构建的java生成类路径字符串   java每20个字符分割一个字符串,然后将每个部分打印到控制台   将字符串数字字转换为字符串数字:Java   在特定区域使用混合类型的java填充字节数组   尽管java类在开关块中实例化,但它只能调用接口方法