在保持清醒的同时保持文本的清醒
saniti的Python项目详细描述
#saniti
**快速、方便地清理文本文档列表,同时保持您的理智**
目的是将文档处理列表简化为相同的输出,从而只需指定文本列表并定义清理管道即可。
saniti
原始文本=[“我喜欢移动它,移动它”,“我喜欢移动它!”“,”of“]
text=saniti.saniti(Original_text,[”token“,”destop“,”depuunct“,”unempty“,”stem“,”out_corpu dict“])”我是说,[]]}
``````
**作为一个类**
````
impimport saniti i
sani1=sanitii.saniti1.saniti1.saniti1.saniti1.process初始化santisining类
text=sani1.process(original_text,[“token”,“destop”,“depunct”,“depuununct”,“unempty”,“unempty”,“lemma”,“out_tag_tag_tag_tag doc”])对saniti.process(originginginal_text,[“toxt”,“token”,“destop”,“destop”,“destop”,“destoop”,“depu“,”move“,”move“,”tags=['我喜欢move move']、taggeddocument(words=['i','likeing','move'],tags=['i likeing move'])、taggeddocument(words=[],tags=['')]
````
doc2vec
*“out_corp_dict”-将文本转换为gensim语料库和字典
**快速、方便地清理文本文档列表,同时保持您的理智**
目的是将文档处理列表简化为相同的输出,从而只需指定文本列表并定义清理管道即可。
saniti
原始文本=[“我喜欢移动它,移动它”,“我喜欢移动它!”“,”of“]
text=saniti.saniti(Original_text,[”token“,”destop“,”depuunct“,”unempty“,”stem“,”out_corpu dict“])”我是说,[]]}
``````
**作为一个类**
````
impimport saniti i
sani1=sanitii.saniti1.saniti1.saniti1.saniti1.process初始化santisining类
text=sani1.process(original_text,[“token”,“destop”,“depunct”,“depuununct”,“unempty”,“unempty”,“lemma”,“out_tag_tag_tag_tag doc”])对saniti.process(originginginal_text,[“toxt”,“token”,“destop”,“destop”,“destop”,“destoop”,“depu“,”move“,”move“,”tags=['我喜欢move move']、taggeddocument(words=['i','likeing','move'],tags=['i likeing move'])、taggeddocument(words=[],tags=['')]
````
doc2vec
*“out_corp_dict”-将文本转换为gensim语料库和字典