擅长:python、mysql、java
<p>这可以看作是一个二进制文本分类问题。您应该收集包含“成人内容”的文档以及不包含成人内容的文档(“通用”)。例如,您在列表中包含的单词/短语可能出现在“通用”文档中,“她想成为珠穆朗玛峰顶上的第一个女孩”这句话中的“顶上的女孩”。你需要得到“成人内容”文档和“通用”文档中每个单词/短语出现的次数的计数向量</p>
我建议你考虑使用像朴素贝叶斯这样的算法(在你的情况下应该相当好)。但是,如果你想捕获使用每个短语的上下文,那么你也可以考虑支持向量机算法(但是这将涉及调整很多复杂的参数)。p>