我试图对几千份文件进行分类,每一行都有几行。我以前用过很多词,但这次想用散列技巧,我很难理解它的实现。在我的数据中有大约8000个独特的单词,所以我用128*128的数字应该足够了
我主要使用这些来源:
http://blog.someben.com/2013/01/hashing-lang/http://www.hpl.hp.com/techreports/2008/HPL-2008-91R1.pdf
以下是我为每个文档生成特征向量的函数:
import mmh3
def add_doc(text):
text = str.split(text)
d_input = dict()
for word in text:
hashed_token = mmh3.hash(word) % 127
d_input[hashed_token] = d_input.setdefault(hashed_token, 0) + 1
return(d_input)
现在我一定是做错了什么,或者是什么地方不明白,因为似乎有大量的碰撞。任何帮助都将不胜感激
如果你的输出是127,那么你的输出应该是唯一的。在
相关问题 更多 >
编程相关推荐