CKIP变压器
ckip-transformers的Python项目详细描述
CKIP变压器
这个开源库使用transformers模型实现CKIP中文NLP工具。在
- (WS)分词
- (POS)词性标注
- (NER)命名实体识别
相关演示/软件包
- CkipTagger:一个使用BiLSTM的中文NLP库。在
- CKIP CoreNLP Toolkit:具有更多NLP任务和实用程序的中文NLP库。在
出资人
- Mu Yang位于CKIP(作者和维护者)
- Wei-Yun Ma在{a13}(维护者)
安装
pip install -Uckip-transformers
要求:
- Python3.6+
- PyTorch1.1+
- HuggingFace Transformers3.5+
通过Pip安装
pip install -Uckip-transformers
使用
有关API的详细信息,请参见https://ckip-transformers.readthedocs.io/en/latest/_api/ckip_transformers.html。在
这个例子的完整脚本是https://github.com/ckiplab/ckip-transformers/blob/master/example/example.py。在
1。导入模块
fromckip_transformers.nlpimportCkipWordSegmenter,CkipPosTagger,CkipNerChunker
2。负荷模型
^{pr2}$3。运行管道
- 分词和命名实体识别的输入必须是句子列表。在
- 词性标注的输入必须是单词列表(分词的输出)。在
# Input texttext=['傅達仁今將執行安樂死,卻突然爆出自己20年前遭緯來體育台封殺,他不懂自己哪裡得罪到電視台。','美國參議院針對今天總統布什所提名的勞工部長趙小蘭展開認可聽證會,預料她將會很順利通過參議院支持,成為該國有史以來第一位的華裔女性內閣成員。',]# Run pipelinews=ws_driver(text)pos=pos_driver(ws)ner=ner_driver(text)
4。显示结果
# Pack word segmentation and part-of-speech resultsdefpack_ws_pos_sentece(sentence_ws,sentence_pos):assertlen(sentence_ws)==len(sentence_pos)res=[]forword_ws,word_posinzip(sentence_ws,sentence_pos):res.append(f'{word_ws}({word_pos})')return'\u3000'.join(res)# Show resultsforsentence,sentence_ws,sentence_pos,sentence_nerinzip(text,ws,pos,ner):print(sentence)print(pack_ws_pos_sentece(sentence_ws,sentence_pos))forentityinsentence_ner:print(entity)print()
傅達仁今將執行安樂死,卻突然爆出自己20年前遭緯來體育台封殺,他不懂自己哪裡得罪到電視台。 傅達仁(Nb) 今(Nd) 將(D) 執行(VC) 安樂死(Na) ,(COMMACATEGORY) 卻(D) 突然(D) 爆出(VJ) 自己(Nh) 20(Neu) 年(Nf) 前(Ng) 遭(P) 緯來(Nb) 體育台(Na) 封殺(VC) ,(COMMACATEGORY) 他(Nh) 不(D) 懂(VK) 自己(Nh) 哪裡(Ncd) 得罪到(VC) 電視台(Nc) 。(PERIODCATEGORY) NerToken(word='傅達仁', ner='PERSON', idx=(0, 3)) NerToken(word='今', ner='DATE', idx=(3, 4)) NerToken(word='20年', ner='DATE', idx=(18, 21)) NerToken(word='緯來體育台', ner='ORG', idx=(23, 28)) 美國參議院針對今天總統布什所提名的勞工部長趙小蘭展開認可聽證會,預料她將會很順利通過參議院支持,成為該國有史以來第一位的華裔女性內閣成員。 美國(Nc) 參議院(Nc) 針對(P) 今天(Nd) 總統(Na) 布什(Nb) 所(D) 提名(VC) 的(DE) 勞工部長(Na) 趙小蘭(Nb) 展開(VC) 認可(VC) 聽證會(Na) ,(COMMACATEGORY) 預料(VE) 她(Nh) 將(D) 會(D) 很(Dfa) 順利(VH) 通過(VC) 參議院(Nc) 支持(VC) ,(COMMACATEGORY) 成為(VG) 該(Nes) 國(Nc) 有史以來(D) 第一(Neu) 位(Nf) 的(DE) 華裔(Na) 女性(Na) 內閣(Na) 成員(Na) 。(PERIODCATEGORY) NerToken(word='美國參議院', ner='ORG', idx=(0, 5)) NerToken(word='今天', ner='LOC', idx=(7, 9)) NerToken(word='布什', ner='PERSON', idx=(11, 13)) NerToken(word='勞工部長', ner='ORG', idx=(17, 21)) NerToken(word='趙小蘭', ner='PERSON', idx=(21, 24)) NerToken(word='認可聽證會', ner='EVENT', idx=(26, 31)) NerToken(word='參議院', ner='ORG', idx=(42, 45)) NerToken(word='第一', ner='ORDINAL', idx=(56, 58)) NerToken(word='華裔', ner='NORP', idx=(60, 62))
- 项目
标签: