python中文本到向量的转换

import tokenize tags = [ "python, tools", "linux, tools, ubuntu", "distributed systems, linux, networking, tools", ] from sklearn.feature_extraction.text import CountVectorizer vec = CountVectorizer(tokenizer=tokenize) data = vec.fit_transform(tags).toarray() print data

1条回答

网友

1楼 · 发布于 2024-04-20 10:33:01

不完全是一个解决方案更多的是从主页nltk.org网站公司名称：

>>> import nltk
 >>> sentence = """At eight o'clock on Thursday morning
 ... Arthur didn't feel very good."""
>>> tokens = nltk.word_tokenize(sentence)
>>> tokens
['At', 'eight', "o'clock", 'on', 'Thursday', 'morning',
'Arthur', 'did', "n't", 'feel', 'very', 'good', '.']

希望这有帮助

编程相关推荐

java Spark sample（）函数是否复制数据？
java如何在API中返回单例列表？
java我可以生成提供输入/输出的哈希函数吗？
如何“使用MATLAB或JAVA”从文本文件中读取数字并将其保存在数组中？
java如何将十进制转换为十六进制？
JavaPostXML文件
java XStream如何在XML中不存在带注释的字段时引发异常
java Tomcat启动批处理问题
java AccessControlException与同一代码库中的小程序类
java如何将长本地时间戳转换为字符串UTC时间戳

相关问题更多 >

编程相关推荐

热门问题

热门文章

python中文本到向量的转换

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >