如何在python中实现单词包特性哈希？

2024-10-05 18:31:54 发布

您现在位置：Python中文网/ 问答频道 /正文

3128

网友

男 | 程序猿一只，喜欢编程写python代码。

我试图对几千份文件进行分类，每一行都有几行。我以前用过很多词，但这次想用散列技巧，我很难理解它的实现。在我的数据中有大约8000个独特的单词，所以我用128*128的数字应该足够了

我主要使用这些来源：

http://blog.someben.com/2013/01/hashing-lang/http://www.hpl.hp.com/techreports/2008/HPL-2008-91R1.pdf

以下是我为每个文档生成特征向量的函数：

import mmh3

def add_doc(text):
    text = str.split(text)
    d_input = dict()
    for word in text:
        hashed_token = mmh3.hash(word) % 127
        d_input[hashed_token] = d_input.setdefault(hashed_token, 0) + 1
    return(d_input)

现在我一定是做错了什么，或者是什么地方不明白，因为似乎有大量的碰撞。任何帮助都将不胜感激

Tags：数据 text com token http 技巧 input 来源

1条回答

网友

1楼 · 发布于 2024-10-05 18:31:54

如果你的输出是127，那么你的输出应该是唯一的。在

如何在python中实现单词包特性哈希？

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何在python中实现单词包特性哈希？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >