使用spaCy用BIOscheme注释文本

token BIO 0 He O 1 has O 2 been O 3 prescribed O 4 ipratropium B-DRUG 5 - I-DRUG 6 albuterol I-DRUG 7 a O 8 small O 9 dose O 10 of O 11 20 B-STRENGTH 12 mg I-STRENGTH 13 , O 14 denzapine B-DRUG 15 and O 16 amil B-DRUG 17 - I-DRUG 18 co I-DRUG 19 . O

{"label": "DRUG", "pattern": [{"lower": "ipratropium"}]} {"label": "DRUG", "pattern": [{"lower": "ipratropium"}, {"lower": "bromide"}]} {"label": "DRUG", "pattern": [{"lower": "ipratropium"}, {"lower": "-"}, {"lower": "albuterol"}]}

1条回答

网友

1楼 · 发布于 2024-10-05 14:21:23

好吧，这是一个令人尴尬的简单解决方案，但希望其他人会感兴趣。只需使用标记的.ent_iob_和.ent_type_属性。即：

pd.DataFrame([(e.text, e.ent_iob_, e.ent_type_) for e in doc])


    0   1   2
0   He  O   
1   has O   
2   been    O   
3   prescribed  O   
4   ipratropium B   DRUG
5   -   O   
6   albuterol   O   
7   a   O   
8   small   O   
9   dose    O   
10  of  O   
11  20  B   STRENGTH
12  mg  I   STRENGTH
13  ,   O   
14  denzapine   B   DRUG
15  and O   
16  amil    B   DRUG
17  -   I   DRUG
18  co  I   DRUG
19  .   O

然后我们可以很容易地将最后两列用连字符以适当的格式组合起来。斯皮西太棒了！在

相关问题更多 >

编程相关推荐

热门问题

热门文章