如何优雅地实现dicts中文本的（棕色）集群表示作为文本分类器的特征？

1条回答

网友

1楼 · 发布于 2024-09-26 21:41:45

你的问题很难理解，所以让我把它正式化一点。到目前为止，我所理解的是：

您希望将给定的text字符串映射到一维数组a
您有字典d，它将一些cluster映射到word列表
a中的每个位置ix对应于字典d中的一些key
a[ix] == 1如果text包含d[key]中的任何一个，则== 0否则

以下解决方案似乎足够优雅：

keys = sorted(d.keys())
def text2vec(text):
    words = text.lower().split()
    return [
        int(any(
            (d[key] in word) for word in words
        )) for key in keys
    ]

测试示例：

test_text = "did ijust atealldonuts"
token = text2vec(test_text)
assert 1 == token[keys.index("ijust")]
assert 0 == token[keys.index("i")]

如果我弄错了，请改进你的问题，特别是一个热点部分

不确定DictVectorizer会有什么帮助，因为它可以转换字典，而您需要转换一段文本。（基本上，DictVectorizer从json转储中恢复数据帧

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何优雅地实现dicts中文本的（棕色）集群表示作为文本分类器的特征？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >