考虑到这样一个数据框架,包括项目和相应的评审文本:
item_id review_text
B2JLCNJF16 i was attracted to this...
B0009VEM4U great snippers...
我想映射5000
中最常出现的单词review_text
,因此得到的数据帧应该如下所示:
或者,最好是一袋词向量:
item_id review_text
B2JLCNJF16 [1,1,1,1,1....]
B0009VEM4U [0,0,0,0,0,1....]
我怎么能做到呢?谢谢!在
编辑:
我已经试过了。现在,我已成功地将审阅文本更改为doc2bow
形式:
item_id review_text
B2JLCNJF16 [(123,2),(130,3),(159,1)...]
B0009VEM4U [(3,2),(110,2),(121,5)...]
它表示ID的单词123
在该文档中出现了2
次。现在我想把它转换成一个向量,比如:
[0,0,0,.....,2,0,0,0,....,3,0,0,0,......1...]
#123rd 130th 159th
你怎么做到的?提前谢谢你!在
首先,要获得每行的单词列表:
现在您可以将
^{pr2}$df["review_text"]
传递给gensim的字典:对于最常出现的5000个单词,使用filter_extremes方法:
doc2bow方法将为您提供单词包表示(word_id,frequency):
在获得单词包表示之后,可以在每一行中合并序列(可能不是很有效):
相关问题 更多 >
编程相关推荐