从数据框中的句子中从两个列表中提取单词

nlp = English() nlp.add_pipe(nlp.create_pipe('sentencizer')) def tokenizeAndList(text): if isinstance(text, str): doc = nlp(text) return [sent.string.strip() for sent in doc.sents] else: return text Mypanda['findings2']=Mypanda['findings'].map(tokenizeAndList,na_action='ignore')

2条回答

网友

1楼 · 编辑于 2024-09-30 12:27:58

您可以使用函数，然后将其应用于数据帧：

text = 'There was a need to place a clip in the oesophagus. One biopsy was taken. There is a long duodenum. The stomach had a balloon placed'
patternAnatomy = "oesophagus|stomach|duodenum"
patternEvent = "clip|RFA|balloon|biopsy"

def split_text(text, patternAnatomy, patternEvent):
    s = [sentence.split() for sentence in text.split('.')]
    ana = patternAnatomy.split('|')
    eve = patternEvent.split('|')
    whitelist = ana + eve

    l = list()
    for sentence in s:
        l_ana = list()
        l_eve = list()
        for word in sentence:
            if word in ana:
                l_ana.append(word)
            if word in eve:
                l_eve.append(word)
        l.append([l_ana, l_eve])

    return ['_'.join(tup[0])+':'+'_'.join(tup[1]) for tup in l]

split_text(text, patternAnatomy, patternEvent)
# Out[14]: ['oesophagus:clip', ':biopsy', 'duodenum:', 'stomach:balloon']

最好提供s、ana、eve和白名单变量作为参数，而不是每次都计算它们

网友

2楼 · 编辑于 2024-09-30 12:27:58

k=patternAnatomy+'|'+patternEvent
df['extract']=df['text'].str.findall(k)

相关问题更多 >

编程相关推荐

热门问题

热门文章

从数据框中的句子中从两个列表中提取单词

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >