用LSTM分类标签

2024-06-27 18:44:28 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试为命名实体创建一个LSTM分类器。到目前为止,我采取的步骤是:

首先:

我用符合我数据集的数据训练了一个斯坦福大学的内科医生。你知道吗

第二:

我从数据集中的停止词、标点符号和数字中筛选出每个句子(我不需要它们),并在每个句子上使用POS-tagger和NER。 接下来,将每个句子分成单词,并与相应的POS标记和命名实体标记一起用于形成一个数据帧。你知道吗

第三:

训练了一个简单的LSTM模型,其中标签是命名实体。 数据集主要由“O”(其他)命名实体标记组成。你知道吗

所以问题来了?我是否应该减少数据帧中的重复项,并减少“O”(其他)标记的数量,以便LSTM不会盲目地将所有内容分类为“O”?在每个句子中不是“O”的命名实体的出现频率远远低于“O”标记。 知道我应该在LSTM中使用哪些其他特性吗?你知道吗

我在NLP是相当新的,所以任何帮助改善我的方法是感激的。你知道吗


Tags: 数据标记pos实体分类器步骤数字单词