是否有Python文本挖掘脚本来对具有多个分类的文本进行分类?

2024-09-29 21:20:25 发布

您现在位置:Python中文网/ 问答频道 /正文

描述的分类

我有一个问题,涉及到确定文本描述属于哪一类。这些文本描述由用户输入,可能包含可与特定类别匹配的关键字。每个类别都有一组可以匹配的关键字和短语。大约有100个类别。 例如,文本描述可能如下所示,“Burlap wallet runner w/borders”,类别“Fabric”包含关键字“Burlap”,因此文本描述可能属于该类别

文本描述/类别

橙色粗麻布过道跑步鞋,带边框/面料

然而,有几个例外使得分类过程更加困难。你知道吗

首先,文本描述包含与多个类别匹配的关键字。例如,一个文本描述可能属于20个不同的类别(100个类别中的一个),因为这些类别中有相同的关键字。这不允许对文本描述进行正确分类。你知道吗

例如,文本描述为“Orange Burlap Wallet runner w/borders”,其关键字“Orang”属于“水果”类别,同时由于关键字“Burlap”也属于“织物”类别。你知道吗

文本描述/类别

橙色粗麻布过道跑步鞋,带边框/面料,水果

其次,文本描述中的关键字与任何类别都不直接匹配。同样,这不允许对文本描述进行正确分类。你知道吗

例如,包含关键字“鼠标”的文本描述与类别“计算机附件”不直接匹配。你知道吗

有谁能推荐一个算法或python库,它可以对文本描述进行分类,而不需要直接分类并消除多重分类?你知道吗

我已经分解了文本描述和类别的关键字,然后匹配它们。你知道吗

这是我用来将文本描述与类别匹配的代码。你知道吗

%LivyPy3.pyspark

entries['category']=list(map(lambda i:list(map(categories_list.get,i)),entries['text_description']))

但是,从这个脚本中,要么有多个分类,要么根本没有分类。你知道吗


Tags: 文本分类关键字类别跑步listrunner边框
1条回答
网友
1楼 · 发布于 2024-09-29 21:20:25

我建议你查一查https://skymind.ai/wiki/word2vec,单词到向量化允许短语和句子的向量化,以便对单词应用更多的上下文。Word-to-vec模型可以创建更好的单词关联模型。你知道吗

我也会在googlescholar上搜索包括NLP和word2vec以及NIPS和categorization在内的论文。这个搜索产生了4300多篇论文,可以给你解决问题的方向。如果你只想选择一个类别,这是一个非常困难的任务。我看到了一个关于#Mailchimps NLP模型的演示,该模型将客户机内容分类为多个类别,有时正确的类别实际上就是第四个类别。他们创建的模型做得很好,但仍然无法检测到一些边缘情况,并且包含了一些典型的偏向更常见的类别而不是不常见的类别。你知道吗

https://scholar.google.com/scholar?hl=en&as_sdt=0%2C11&q=NLP+AND+word2vec+AND+categorization+AND+mailchimp&btnG= 推荐引擎论文与您的任务相关,因为预测少量单词的上下文以提出搜索建议的复杂性也是一个类似的问题。你知道吗

相关问题 更多 >

    热门问题