擅长:python、mysql、java
<p>好吧,据我所知,我认为有多种方法来处理这个案子。
会有权衡,准确率可能会有所不同。因为众所周知的事实和观察</p>
<h3>每一条微博都是不同的!</h3>
<p>(除非您是基于标记和其他关键字从twitter流api中提取数据)。请定义数据源以及如何提取数据。我假设你只是得到了一些关于任何事情的普通推文</p>
<p>你能做的就是为你拥有的每个类生成一组字典
(即音乐=>;流行音乐、爵士乐、说唱乐、乐器……)
它将包含与该类相关的单词。对于python,可以使用<a href="http://www.nltk.org/" rel="nofollow"><strong>NLTK</strong></a>,对于其他语言,可以使用Stanford NLP</strong>。在</p>
<p>你可以从提取开始</p>
<ul>
<li>同义词</li>
<li>下义词</li>
<li>上位词</li>
<li>梅隆</li>
<li>全称</li>
</ul>
<p>去看看这些<a href="https://courses.engr.illinois.edu/cs498jh/Slides/Lecture19HO.pdf" rel="nofollow">NLP Lexical semantics slides</a>。它肯定会澄清一些概念。在</p>
<p>每个字典都有一次。将它们与你的tweet进行交叉比较。最相似的tweet(您可以根据这些字典中单词的出现情况对它们进行排序),您可以将其标记为该类。这将使你的tweet像其他人一样被贴上标签。
现在的问题是准确性!但这取决于类的数据和多功能性。这可能是一个“过度杀戮”,但它可能接近你想要的。在</p>
<p>此外,您可以用这种方式标记一些tweet,并使用<strong>余弦相似度</strong>来交叉标识其他tweet。这将有助于优化部分。但这又取决于你。你知道你能承受什么样的权衡</p>
<p>真正的斗争将是机器学习部分以及你如何管理它。在</p>