我希望对我的数据有所了解。我使用sklearn PCA将它们转换成VSM,并将它们绘制成matplotlib图。这包括
使用管道将文档转换为数字矩阵
test = pipeline.fit_transform(docs).todense()
适合我的模型
pca = PCA().fit(test)
然后我用transform转换它
data = pca.transform(test)
最后,我使用Matplotlib绘制结果
plt.scatter(data[:,0], data[:,1], c = categories)
我的问题是:我该如何选择新的句子,并确定它们相对于其他文件的位置。用X来标记它们的相对位置?你知道吗
谢谢
还将新文档强制转换为数字数组
请注意,这将使用带有先前拟合参数的
pipeline
,因此它是pipeline.transform
,而不是pipeline.fit_transform
。使用先前拟合的
pca
转换新数据。你知道吗这会将新数据转换为与原始数据相同的PC空间。
使用第二个
scatter
将新数据添加到绘图中。你知道吗相关问题 更多 >
编程相关推荐