我正在从事一个涉及大量文本挖掘的项目(基于DataCamp课程“专家机器学习”中概述的步骤)
我的管道中有一个“矢量器”步骤来执行标记化
('vectorizer', HashingVectorizer(token_pattern=TOKENS_ALPHANUMERIC,
non_negative=True,
norm=None,
binary=False,
ngram_range=(1, 2),
n_features = 2 ** 18
)
)
虽然这需要一段时间,但在考虑1克和2克的情况下,上述步骤效果良好。我不得不将n-features从默认值2**20减少到工作状态
作为下一步,我想考虑特性交互,所以我将此步骤添加到管道中
('int', SparseInteractions(degree=2))
SparseInteractions的代码可以在这里找到 https://github.com/drivendataorg/box-plots-sklearn/blob/master/src/features/SparseInteractions.py
问题是,过了一段时间,shell会重新启动,而没有任何错误迹象。似乎增加互动对我的笔记本电脑来说太难了。有人对如何解决这个问题有什么建议吗
谢谢
目前没有回答
相关问题 更多 >
编程相关推荐