用LSTM分类标签

2024-06-27 18:44:28 发布

男 | 程序猿一只，喜欢编程写python代码。

我正在尝试为命名实体创建一个LSTM分类器。到目前为止，我采取的步骤是：

首先：

我用符合我数据集的数据训练了一个斯坦福大学的内科医生。你知道吗

第二：

我从数据集中的停止词、标点符号和数字中筛选出每个句子（我不需要它们），并在每个句子上使用POS-tagger和NER。接下来，将每个句子分成单词，并与相应的POS标记和命名实体标记一起用于形成一个数据帧。你知道吗

第三：

训练了一个简单的LSTM模型，其中标签是命名实体。数据集主要由“O”（其他）命名实体标记组成。你知道吗

所以问题来了？我是否应该减少数据帧中的重复项，并减少“O”（其他）标记的数量，以便LSTM不会盲目地将所有内容分类为“O”？在每个句子中不是“O”的命名实体的出现频率远远低于“O”标记。知道我应该在LSTM中使用哪些其他特性吗？你知道吗

我在NLP是相当新的，所以任何帮助改善我的方法是感激的。你知道吗

Tags：数据标记 pos 实体分类器步骤数字单词

0条回答

目前没有回答