使用BERT偏移向spacy文档对象添加图元

1条回答

网友

1楼 · 发布于 2024-09-30 06:12:41

因为spacy将实体作为IOB标记存储在文档中的令牌上，所以您只能在下面添加对应于完整令牌的实体范围

如果您仅使用此doc来存储这些实体（而不使用任何其他组件，如来自另一个模型的标记器或解析器，它们需要不同的标记器），则可以创建一个具有与BERT模型相同标记化的文档：

import spacy
from spacy.tokens import Doc

nlp = spacy.blank("en")
# bert_tokens = [..., "Ex", "dtve", ...]
words, spaces = spacy.util.get_words_and_spaces(bert_tokens, text)
doc = Doc(nlp.vocab, words=words, spaces=spaces)

然后，您应该能够将实体范围添加到文档中

如果需要基于不同标记化的原始空间标记化+实体，则必须调整实体字符偏移以匹配空间标记边界，以便添加它们。由于这在很大程度上取决于数据/任务（如果dtve是一个实体，那么Exdtve是否也必须是相同类型的实体？），因此您可能需要基于数据的自定义解决方案。如果您试图调整实体跨距以与当前标记对齐，则可以通过token.idx和len(token)查看每个标记的字符开始和长度

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用BERT偏移向spacy文档对象添加图元

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >