Python天赋可以解释不连续的注释吗?

2024-06-01 09:56:27 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在用Python的天赋训练一个顺序标记模型。我的原始文本数据有一些概念短语,我希望模型能够识别这些短语,在某些情况下,这些短语由一组不连续的标记表示,中间有单词。例如,“钾和镁置换”,其中“钾置换”是一个由不连续标记表示的概念,“镁置换”是另一个连续但与第一个概念重叠的概念。 我训练了另一个Flair模型,其中所有概念都可以用一个标记来表示,为这些数据构建语料库CoNLL文件非常简单。在这种情况下,不连续和重叠的概念提出了3个问题:

  1. 如果我在CoNLL文件中将其适当标记为:

“镁B-1

替换I-1“

  1. 是否将上述短语中的不连续概念视为“钾置换”:

“B-浓缩钾2

以及

氧化镁

替换I-2“

  1. 如何在CoNLL文件中表示重叠的概念?是否有其他方法可以用原始文本和开始/结束索引列表来表示语料库

PS在上下文中它必须非常清楚,但是单词概念,我指的是我试图训练模型识别的单个或多个标记/术语

我感谢你的建议或信息


Tags: 文件数据标记模型文本概念顺序情况