我正在用Python的天赋训练一个顺序标记模型。我的原始文本数据有一些概念短语,我希望模型能够识别这些短语,在某些情况下,这些短语由一组不连续的标记表示,中间有单词。例如,“钾和镁置换”,其中“钾置换”是一个由不连续标记表示的概念,“镁置换”是另一个连续但与第一个概念重叠的概念。 我训练了另一个Flair模型,其中所有概念都可以用一个标记来表示,为这些数据构建语料库CoNLL文件非常简单。在这种情况下,不连续和重叠的概念提出了3个问题:
“镁B-1
替换I-1“
“B-浓缩钾2
以及
氧化镁
替换I-2“
PS在上下文中它必须非常清楚,但是单词概念,我指的是我试图训练模型识别的单个或多个标记/术语
我感谢你的建议或信息
Flair不支持不连续和重叠的注释。 详见https://github.com/zalandoresearch/flair/issues/824#issuecomment-504322361
相关问题 更多 >
编程相关推荐