基于NGrams的二元分类

2024-10-03 00:25:57 发布

您现在位置:Python中文网/ 问答频道 /正文

我想从两组用户(0/1)中提取tweet的ngram,为二进制分类器生成如下CSV文件

user_tweets, ngram1, ngram2, ngram3, ..., label
1, 0.0, 0.0, 0.0, ..., 0
2, 0.0, 0.0, 0.0, ..., 1
..

我的问题是,我是否应该首先提取这两组重要的ngram,然后对我在用户推文中找到的每一个ngram进行评分?还是有更简单的方法


Tags: 文件csv方法用户分类器二进制评分label