从文档中提取和分类医学代码的最佳方法?

2024-05-20 10:26:53 发布

您现在位置:Python中文网/ 问答频道 /正文

我想解析医学文档,并将其中的单词识别/分类为各种医学代码,如HCPCS、ICD、CPT、APC等。我正在考虑最好的方法;我尝试过正则表达式,但它们会给我很多误报(例如,HCPCS代码通常是5位数字或4位数字+1个字母),但这会涉及到10000毫克,其他代码不能像检查4位数那么简单,因为这会涉及到很多文档中的年份。你知道吗

某些代码(如HCPC)格式良好,但其他代码(如ICD)格式不好(M05.73、M05.732),因为它们在长度、小数位数和格式方面可能有所不同(有些文档会说M05.7x到M05.8x)

我也一直在考虑使用机器学习NLP方法,但除了字长之外,我不确定我的特点是什么。你知道吗

有什么可行的方法?你知道吗

编辑: 以下是一份文件的摘录示例:

CODES NOTES: Previously, the unlisted HCPCS code C1889 was used to represent this device. However, the appropriate HCPCS code which describes the absorbable nasal implant device is C9749. The physician work for the nasal implant placement would be billed with the unlisted CPT code 30999 - Unlisted procedure, nose. Some providers may use CPT 30465 for this service, Repair of nasal vestibular stenosis (e.g., spreader grafting, lateral nasal wall reconstruction); however the unlisted code is the appropriate code. Codes Number Description CPT 30999 Unlisted procedure, nose HCPCS C9749 Repair of nasal vestibular lateral wall stenosis with implant(s) Date of Origin: November 2018 SUR209 | 8

预期输出-将检测到的代码映射到可能的代码类型:

C1889(可能的代码类型:HCPCS)

C9749(可能的代码类型:HCPCS)

30999(可能的代码类型:HCPCS)

30465(可能的代码类型:HCPCS)


Tags: ofthe方法代码文档类型格式code
1条回答
网友
1楼 · 发布于 2024-05-20 10:26:53

cTAKES公司

Apache cTAKES是一个用于医学文本处理的NLP项目,它具有针对医学领域的各种内容提取和实体识别的预训练模型。您需要的代码类型作为资源或实体标记模型的一部分包含在cTAKES中,这是合理的。你知道吗

相关问题 更多 >