Python RecordLinkage 监督机器学习

urltrain = "../Training_Set.data" namestrain = ['TrueMatchID','System','ID','Col1','Col2'] golden_pair = ps.read_csv(urltrain, names=namestrain) golden_pair = np.asarray(golden_pair).reshape(5000,5) golden_pair = ps.DataFrame(golden_pair) indexer = rl.BlockIndex(on='TrueMatchID') golden_pair_index = indexer.index(golden_pair) print(indexer) # Initialize the classifier logreg = rl.LogisticRegressionClassifier() # Train the classifier logreg.learn(golden_pair.all(), golden_pair_index)

1条回答

网友

1楼 · 发布于 2024-10-02 04:17:13

这是你写的代码的注释-

golden_pair = ps.read_csv(urltrain, names=namestrain) # pandas dataframe with column names intact

golden_pair = np.asarray(golden_pair).reshape(5000,5) # converting it to numpy array makes you lose the metadata information of pandas like column names

golden_pair = ps.DataFrame(golden_pair) # here you need to bring back the column names again as it's not present in the numpy array anymore

将最后一行修改为-

^{pr2}$

您可以按原样继续其余代码：

indexer = rl.BlockIndex(on='TrueMatchID')
golden_pair_index = indexer.index(golden_pair)

print(indexer)

# Initialize the classifier
logreg = rl.LogisticRegressionClassifier()
# Train the classifier
logreg.learn(golden_pair.all(), golden_pair_index)

p.S我不明白为什么你需要重新塑造然后再把它投射回Dataframe。也许你可以避免。在

相关问题更多 >

编程相关推荐

热门问题

热门文章