基于大dict的Python文本分类字符串：字符串

1条回答

网友

1楼 · 发布于 2024-10-01 15:40:05

制作训练数据集，训练分类器。大多数分类器都使用您自己定义的一组特性的值。（特征的类型取决于分类器；在某些情况下，它们是数字量，在其他情况下是真/假，在其他情况下，它们可以取几个离散值。）您提供特征，分类器决定每个特征的重要性，以及如何解释它们的组合。在

通过教程，您可以查看NLTK书籍的chapter 6。示例任务“将姓名分为男性和女性”在结构上与您的任务非常相似：根据短字符串（名称）的形式，将其分类（性别）。在

您将把每个零件号翻译成特征字典。既然你没有向我们展示真实的数据，没有人会给你具体的建议，但是你绝对应该像书中那样做一些通用的特性，此外，你还应该根据你所知道的每一条线索，不管是强是弱，做出一个特征。如果一个特征的长度不同，则标识的长度也不同。如果连字符的存在（或者数量或位置）是一个线索，那么就把它变成一个特征。如果一些供应商的零件使用大量的零，同上。然后为其他任何东西制作附加功能，例如可能有用的“前三个字母”。一旦你有了一个可以工作的系统，就可以尝试不同的特征集和不同的分类器引擎和算法，直到你获得可以接受的性能。在

为了使用新数据获得良好的结果，不要忘记将培训数据拆分为培训、测试和评估子集。您可以将所有这些与任何分类器一起使用，但是NLTK的naivebayes分类器训练起来非常快，因此您可以从中开始。（请注意，特征可以是离散值，例如first_letter可以是实际的字母；您不需要坚持使用布尔特征）

相关问题更多 >

编程相关推荐

热门问题

热门文章