Python outputcol_专题 - Python中文网

如何用Python在Spark中对线性回归进行热编码？

我有这段代码是我为Random Forest regression编码而编写的。但是Random Forest regression不需要One Hot Encoding在indexer之后。现在我想 ...

2024-09-24 已阅读: n次

核心问题就在这里 from pyspark.ml.feature import VectorAssembler df = spark.createDataFrame([([1, 2, 3], 0, 3 ...

2024-09-24 已阅读: n次

我正在训练一个机器学习模型Pypark.ml公司JupyterLab笔记本中AWS EMR上s3 bucket的on.json数据。这个bucket不是我的，但是我认为access工作得很好，因为数据 ...

2024-09-24 已阅读: n次

我对Spark很陌生，我正在尝试将StandardScaler（）应用于数据帧中的列。 +---------------+ | DF_column| +---------------+ | ...

2024-09-24 已阅读: n次

我创建了一个dataframe ready，并用VectorAssembler对其进行了转换，以便与ML库一起使用： from pyspark.ml import Pipeline from pysp ...

2024-09-24 已阅读: n次

我试图在Spark中使用HashTF，但我有一个主要问题。如果inputCol只有一个这样的列 HashingTF(inputCol="bla",outputCol="tf_features") i ...

2024-09-24 已阅读: n次

我试图使用StringIndexer、OneHotEncoder和{}将分类值转换为数值，以便在PySpark中应用K-means聚类。我的代码是： indexers = [ StringIn ...

2024-09-24 已阅读: n次

某些代码未按预期工作。看起来HashingTF函数正在为具有完全相同单词的字符串返回相同的哈希值，而不管单词的顺序如何。有人能证实吗？你知道吗 hashingTF = HashingTF(inputC ...

2024-09-24 已阅读: n次

我的方法如下。我认为，由于我使用for循环并分别处理每一列，所以这段代码不会分发，因为完成它需要很多小时。我在pyspark数据帧中有8000列。你能告诉我一个正确的方法来实现这个并行/分布式的方式 ...

2024-09-24 已阅读: n次

我试图检查pyspark中OneHotEncoder的输出。我在论坛和编码器文档中读到，编码向量的大小将等于正在编码的列中不同值的数量。在 from pyspark.ml.feature import ...

2024-09-24 已阅读: n次

我试图使用ML库在Spark中使用决策树运行交叉验证，但是在调用cv.fit(train_dataset)时遇到了这个错误： pyspark.sql.utils.IllegalArgumentExce ...

2024-09-24 已阅读: n次

我编写了一个python UDF，它使用以前定义的python函数而不是lambda（UDF的标准输入）。当代码在jupyter笔记本中执行时，这似乎会导致奇怪的导入错误（例如，调用df.show（） ...

2024-09-24 已阅读: n次