如何在数据帧内进行句子标记化

def tokenizeAndList(text): raw_text = text nlp = English() nlp.add_pipe(nlp.create_pipe('sentencizer')) # updated doc = nlp(raw_text) sentences = [sent.string.strip() for sent in doc.sents] return(sentences) out=myText['findings'].map(tokenizeAndList)

1条回答

网友

1楼 · 发布于 2024-09-24 06:27:27

这是因为findings列中的某些值不是字符串类型

在使用该text创建空间文档之前，应检查其类型是否为str，否则按原样返回值：

nlp = English()
nlp.add_pipe(nlp.create_pipe('sentencizer'))

def tokenizeAndList(text):
    if isinstance(text, str):
        doc = nlp(text)
        return [sent.string.strip() for sent in doc.sents]
    else:
        return text

编程相关推荐

java无法访问远程pentaho biserver
带有级联类型的OneToMany上的java Hibernate TransientObject异常。如果我们在保存之前调用迭代器（）就可以了
java如果用户输入的“数字”超过了用于解释该数字的内存大小，那么正确的测试方法是什么？
java错误400错误请求JqGrid
java如何防止修改类中的私有字段？
java从一个Bean创建两个JPA表？
在Java中生成一个在JVM关闭后仍能生存的进程
java将字符反向复制到字符数组
使用opencv的java人脸检测不起作用
java差异代码覆盖率

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何在数据帧内进行句子标记化

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >