擅长:python、mysql、java
<p>我认为这是一个文本分类问题,因为使用单词黑名单通常无法很好地对全文进行分类。黑名单不起作用的主要原因是你会有很多误报(一个例子:你的名单中包含“性感”一词,光是这个词还不足以将文档标记为成人文档)。要做到这一点,您需要一个培训集,其中的文档标记为“成人内容”,其他文档标记为“工作安全”。下面是我要做的:</p>
<ol>
<li>检查是否可以使用现有的带标签的数据集。你需要
每个类都有数千个文档</李>
<li>如果找不到,创建一个。例如,您可以创建一个scraper并下载Reddit内容。例如读取<a href="http://www.cs.ubc.ca/~nando/540-2013/projects/p38.pdf" rel="noreferrer">Text Classification of NSFW Reddit Posts</a></li>
<li>使用NLTK构建文本分类器。如果你不知道怎么做,读:<a href="http://www.nltk.org/book/ch06.html" rel="noreferrer">Learning to Classify Text</a></li>
</ol>