要使用测试和训练数据进行分组预测，请按多列分组

df = pd.DataFrame({"CUSTOMER_NUMBER": ["CUST1", "CUST1", "CUST1", "CUST1", "CUST1", "CUST1", "CUST1", "CUST1", "CUST1", "CUST2", "CUST2", "CUST2", "CUST2", "CUST2", "CUST2", "CUST2", "CUST3", "CUST3", "CUST3", "CUST4", "CUST4", "CUST4"], "PRODUCT": ["PRODUCT1", "PRODUCT2", "PRODUCT3", "PRODUCT1", "PRODUCT2", "PRODUCT3", "PRODUCT1", "PRODUCT2", "PRODUCT3", "PRODUCT1", "PRODUCT2", "PRODUCT3", "PRODUCT1", "PRODUCT2", "PRODUCT3", "PRODUCT3", "PRODUCT3", "PRODUCT3", "PRODUCT3", "PRODUCT1", "PRODUCT1", "PRODUCT2"], "REP_VISITS": ["3", "3", "3", "3", "3", "3", "4", "4", "4", "3", "2", "2", "4", "6", "8", "5", "3", "1", "3", "2", "0", "3"], "QTR": ["QTR1", "QTR1", "QTR1", "QTR2", "QTR2", "QTR2", "QTR3", "QTR3", "QTR3", "QTR1", "QTR1", "QTR1", "QTR2", "QTR2", "QTR2", "QTR3", "QTR1", "QTR2", "QTR3", "QTR1", "QTR2", "QTR3"], "START_DATE": ["2020-01-01", "2020-01-01", "2020-01-01", "2020-04-01", "2020-04-01", "2020-04-01", "2020-07-01", "2020-07-01", "2020-07-01", "2020-01-01", "2020-01-01", "2020-01-01", "2020-04-01", "2020-04-01", "2020-04-01","2020-07-01", "2020-01-01", "2020-04-01", "2020-07-01", "2020-01-01", "2020-04-01", "2020-07-01"], "END_DATE": ["2020-03-31", "2020-03-31", "2020-03-31", "2020-06-30", "2020-06-30", "2020-06-30", "2020-09-30", "2020-09-30", "2020-09-30", "2020-03-31", "2020-03-31", "2020-03-31", "2020-06-30", "2020-06-30", "2020-06-30", "2020-09-30", "2020-03-31", "2020-06-30", "2020-09-30", "2020-03-31", "2020-06-30", "2020-09-30"]})

1条回答

网友

1楼 · 发布于 2024-09-28 05:21:32

我认为您可以尝试使用客户编号和产品id作为特征，并使用逻辑回归或决策树来训练一个简单的分类器。您可以尝试对不同的客户编号和产品ID使用1-hot编码。如果您尝试这种方法，REP_访问可以是标签，功能可以是cust1、cust2、cust3、product1、product2等。 scikitlearn有这些算法的实现，它们易于使用。希望这有助于：

from sklearn.tree import DecisionTreeClassifier 
unique_cust_nos = df['CUSTOMER_NUMBER'].unique()
unique_products = df['PRODUCT'].unique()
features = []
for item in unique_cust_nos:
    features.append(item)
for item in unique_products:
    features.append(item)
for idx, item in df.iterrows():
#     make a dataframe(all_features_df) so that ['CUST1', 'CUST2', 'CUST3', 'CUST4', 'PRODUCT1', 'PRODUCT2', 'PRODUCT3'] are feature columns and rep_visits is the label
X = all_features_df[feature_cols] # Features
y = all_features_df[label] # Target variable
# Create Decision Tree classifer object
clf = DecisionTreeClassifier()
# Train Decision Tree Classifer
clf = clf.fit(X,y)
#Predict the response for test dataset
y_pred = clf.predict(X_test)

相关问题更多 >

编程相关推荐

热门问题

热门文章