无需编码进行分类变换的分类算法

print(type(X)) ---> <class 'pandas.core.frame.DataFrame'> print(type(y)) ---- > <class 'pandas.core.series.Series'> from sklearn.ensemble import RandomForestClassifier from sklearn.model_selection import train_test_split from sklearn import metrics X_train_rf, X_test_rf, y_train_rf, y_test_rf = train_test_split(X,y,random_state=0) randomforest = RandomForestClassifier() randomforest.fit(X_train_rf, y_train_rf) y_train_pred_rf=randomforest.predict(X_train_rf) y_pred_rf= randomforest.predict(X_test_rf) print('training accuracy',accuracy_score(y_train_rf,y_train_pred_rf)) print('test accuracy',accuracy_score(y_test_rf,y_pred_rf)) # The o/p obtained is : ValueError: could not convert string to float: 'Delhi' (# Delhi- the element in an feature column )

1条回答

网友

1楼 · 发布于 2024-09-18 15:17:52

可以使用pythonweka包装器，这样就不需要热编码了。示例：

import weka.core.jvm as jvm
from weka.core.converters import Loader
from weka.classifiers import Classifier

def get_weka_prob(inst):
    dist = c.distribution_for_instance(inst)
    p = dist[next((i for i, x in enumerate(inst.class_attribute.values) if x == 'DONE'), -1)]
    return p

jvm.start()

loader = Loader(classname="weka.core.converters.CSVLoader")
data = loader.load_file(r'.\recs_csv\df.csv')
data.class_is_last()

datatst = loader.load_file(r'.\recs_csv\dftst.csv')
datatst.class_is_last()

c = Classifier("weka.classifiers.trees.J48", options=["-C", "0.1"])

c.build_classifier(data)
print(c)
probstst = [get_weka_prob(inst) for inst in datatst]

jvm.stop()

相关问题更多 >

编程相关推荐

热门问题

热门文章