有 Java 编程相关的问题?

你可以在下面搜索框中键入要查询的问题!


共 (2) 个答案

  1. # 1 楼答案

    做好这件事并不容易。谷歌希望能够做到这一点(“用户会重视哪些链接”),Netflix(“他们会重视哪些电影”)和其他许多公司也是如此。事实上,你最好通读一下关于winning entry for the Netflix Prize的注释

    然后,您需要提取一组特性,正如@hmason所说的。然后你需要一个合适的机器学习算法;你要么需要一个函数逼近器(在这里你尝试使用你的功能来预测一个介于0和1之间的值,其中1是“有史以来最好的tweet”,0是“omg谁在乎”),要么需要一个分类器(在这里你使用你的功能来尝试预测它是“好”还是“坏”tweet)

    如果你选择后者,这使得用户培训变得容易,因为他们只需要用“喜欢”(混合社交网络隐喻)来评分推特,那么你通常最好使用支持向量机,因为支持向量机存在一个fairly comprehensive Java library

    在前一种情况下,有多种技术可能值得尝试;如果您决定使用LIBSVM库,它们也有用于回归(即参数估计)的变量

  2. # 2 楼答案

    这是一个分类问题,本质上你想学习一个函数y(x),它预测“x”,一个未标记的tweet,是属于“有价值”类还是属于“无价值”类

    这里最棘手的不是算法(朴素贝叶斯只是计数和乘法,很容易编码!)但是:

    1. 收集培训数据
    2. 定义最佳特征集

    首先,我建议您跟踪用户喜爱、回复和转发的推文,其次,查看推文的作者、推文中的文字以及是否包含链接等质量