将推文分类成类别

2024-09-30 20:31:48 发布

您现在位置:Python中文网/ 问答频道 /正文

我希望编写一个脚本来解析用户的tweets并将其分类到先前指定的类别中。例如:

"Ed Miliband will lose election if he is 'seduced' by Blairites, says union chief http://bit.ly/145CRAD"

将在政治领域分类。在

"Dear Sachin, you're 40. Buy a sports car, have flings with 20 yr old blondes. Enjoy your midlife crisis. Leave IPL for the boys - your fan"

将归入蟋蟀领域。在

最好的办法是什么?在


Tags: 用户脚本yourifis分类类别will
3条回答

这是自然语言处理(NLP)领域中的一个复杂问题,称为document classification。最好的开源库之一是由The Stanford NLP Group维护的。祝你好运!在

  1. 主题分类(传统分类技术)
  2. 实体提取和更复杂的技术来识别与人或tweet帐户相关的主题。在

这些文件是一个很好的开始寻找。。。 http://dl.acm.org/citation.cfm?id=1835643http://www.tmrfindia.org/ijcsa/v9i15.pdf

您正在寻找'Topic Model'。技术包括潜在的Dirichlet分配等。Wikipedia的文章包含了指向诸如Mallet这样的资源的链接,这些资源应该对您有所帮助。在

你没有说明你想用什么语言,也没有说明“最好”是什么意思?最容易实现、最快还是最好的结果?在

另一种选择是使用人类(例如亚马逊机械土耳其人),这可能会给你“最好”的结果,推特是众所周知的,很难分类,因为所有的缩写,讽刺和哈希标签。。。#没什么问题。在

相关问题 更多 >