PySpark的Python PMML记分库作为SPARKML转换器

pypmml-spark的Python项目详细描述


PYPMML火花

pypmml spark是pyspark的python pmml评分库,它实际上是PMML4S-Spark的python api。

先决条件

  • Java=1.8
  • python 2.7或>;=3.5

依赖关系

  • Pyspark=2.4.0

安装

pip install pypmml-spark

或者从github安装最新版本:

pip install --upgrade git+https://github.com/autodeployai/pypmml-spark.git

在那之后,您需要做更多的工作来在spark中使用它,spark必须知道包中的那些jar pypmml_spark.jars。有几种方法可以做到这一点:

  1. 最简单的方法是运行随pypmml-spark提供的脚本link_pmml4s_jars_into_spark.py

    link_pmml4s_jars_into_spark.py
    
  2. 使用这些配置选项正确地指定依赖jar。例如--jars,或者spark.executor.extraClassPathspark.executor.extraClassPath。有关这些参数的详细信息,请参见Spark

用法

  1. 从各种源(如文件名、字符串或字节数组)加载模型。

    frompypmml_sparkimportScoreModel# The model is from http://dmg.org/pmml/pmml_examples/KNIME_PMML_4.1_Examples/single_iris_dectree.xmlmodel=ScoreModel.fromFile('single_iris_dectree.xml')
  2. 调用transform(dataset)对输入数据集运行批处理分数。

    # The data is from http://dmg.org/pmml/pmml_examples/Iris.csvdf=spark.read.csv('Iris.csv',header='true')score_df=model.transform(df)

支架

如果您对pypmml spark库有任何疑问,请在此存储库上打开问题。

对项目的反馈和贡献,无论是哪一种,都是非常受欢迎的。

许可证

pypmml sparkAPL 2.0下获得许可。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
安卓如何在java字符串中获取RATE的值   java ANT在哪里输出编译器错误?   在java中,while循环在何处启动对象   javacom。谷歌。格森。内部的LinkedTreeMap无法强制转换到我的类   java单选按钮。isSelected()方法未返回正确的响应   嵌入式系统中applet中的java相对码基字段   如何在eclipse中将Java应用程序附加到jvm探查器?   java为什么Android应用程序崩溃?   在java中拖放上传后保持文件夹结构   爪哇多领导人选举问题   java Springs RestTemplate如何处理postForEntity()中的错误响应   Java如何用前导零递增整数字符串?   java Android将文本作为图像共享给其他应用程序   Java搜索替换   java isDirectory()不适用于UNIX目录   java我们可以得到显示测试类是否通过或失败的TestNG报告吗   Java类对象排序和分组   简单Java幂递归   java在处理MethodArgumentNotValidException时如何访问请求对象?