如何不使用sklearn TfidfVectorizer解析句点？

from sklearn.feature_extraction.text import TfidfVectorizer docs= ("'CSC.labtrunk', 'CSC.datacenter', 'CSC.netbu', 'CSC.asr5k.general', 'CSC.ena', 'CSC.embu'", "'CSC.ena'", "'CSC.embu', 'CSC.security', 'CSC.ena'", "'CSC.embu', 'CSC.datacenter', 'CSC.labtrunk', 'CSC.content-security', 'CSC.ena', 'CSC.embu.dev', 'CSC.spv.custom-prods', 'CSC.voice', 'CSC.policy-mgmt', 'CSC.nuova'", "'CSC.embu', 'CSC.sys', 'CSC.policy-mgmt', 'CSC.content-security', 'CSC.datacenter'", "'CSC.asr5k.general'", "'CSC.sys'", "'CSC.labtrunk'") vec = TfidfVectorizer() trfm_data = vec.fit_transform(docs) print trfm_data

(0, 6) 0.200552591995 (0, 7) 0.200552591995 (0, 8) 0.265074737928 (0, 0) 0.265074737928 (0, 11) 0.316288846342 (0, 4) 0.228737749732 (0, 9) 0.228737749732 (0, 2) 0.757857197424 print vec.inverse_transform(trfm_data)

1条回答

网友

1楼 · 发布于 2024-10-04 01:25:25

不确定这是否是正确的约定，但我使用了字符串列表而不是字符串元组，并得到了所需的输出。你知道吗

样本数据：

data = ["'CSC.labtrunk', 'CSC.datacenter', 'CSC.netbu', 'CSC.asr5k.general', 'CSC.ena', 'CSC.embu'", "'CSC.ena'", "'CSC.embu', 'CSC.security', 'CSC.ena'", "'CSC.embu', 'CSC.datacenter', 'CSC.labtrunk', 'CSC.content-security', 'CSC.ena', 'CSC.embu.dev', 'CSC.spv.custom-prods', 'CSC.voice', 'CSC.policy-mgmt', 'CSC.nuova'", "'CSC.embu', 'CSC.sys', 'CSC.policy-mgmt', 'CSC.content-security', 'CSC.datacenter'", "'CSC.asr5k.general'", "'CSC.sys'", "'CSC.labtrunk'"]

vec = TfidfVectorizer(tokenizer=lambda i: i, lowercase=False)
trfm_data = vec.fit_transform(data)
data = trfm_data
trfm_data data

样本输出：

[array(['CSC.embu', 'CSC.ena', 'CSC.asr5k.general', 'CSC.netbu',
       'CSC.datacenter', 'CSC.labtrunk'], 
      dtype='|S20'), array(['CSC.ena'], 
      dtype='|S20'), array(['CSC.security', 'CSC.embu', 'CSC.ena']

相关问题更多 >

编程相关推荐

热门问题

热门文章