使用scikitlearn的故障训练模型,shell重启

2024-09-30 01:27:48 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在从事一个涉及大量文本挖掘的项目(基于DataCamp课程“专家机器学习”中概述的步骤)

我的管道中有一个“矢量器”步骤来执行标记化

('vectorizer', HashingVectorizer(token_pattern=TOKENS_ALPHANUMERIC,
                                 non_negative=True, 
                                 norm=None, 
                                 binary=False,
                                 ngram_range=(1, 2),
                                 n_features = 2 ** 18
                                )
)

虽然这需要一段时间,但在考虑1克和2克的情况下,上述步骤效果良好。我不得不将n-features从默认值2**20减少到工作状态

作为下一步,我想考虑特性交互,所以我将此步骤添加到管道中

('int', SparseInteractions(degree=2))

SparseInteractions的代码可以在这里找到 https://github.com/drivendataorg/box-plots-sklearn/blob/master/src/features/SparseInteractions.py

问题是,过了一段时间,shell会重新启动,而没有任何错误迹象。似乎增加互动对我的笔记本电脑来说太难了。有人对如何解决这个问题有什么建议吗

谢谢


Tags: 项目标记文本机器token管道矢量步骤

热门问题