Python twikenizer包_程序模块 - PyPI

twitter评论的标记器（tweets）

twikenizer的Python项目详细描述

Twikenizer

这个存储库托管tweets的标记器的代码。它的主要目的是识别细微的亵渎，所以它应该在包含隐藏亵渎的数据（例如“f*ck”）上获得更好的性能。

免责声明：以下段落可能包含亵渎。

说明

python提供了一组用于不同目的的语句标记器：nltk的word标记器、spacy的、scikit learn的默认标记器和 TweetTokenizer等等。除了TweetTokenizer之外，其他所有的标记都忽略了标签，并通过将符号与其他标记分离来提及。尽管tweetTokenizer考虑twitterdialect，但它无法标记隐藏的细微亵渎。

对于单词f*ck，考虑的标记是[f, *, ck]。单词g@y被标记为[g, @y]，考虑到一个标记g和一个被错误识别的提及@y。而标签#hash_tag被正确标记为 [#hash_tag]，regular标记没有下划线分隔：love_twitter被标记为['love_twitter']，而不是['love', '_', 'twitter']。

Twikenizer的创建是为了能够正确识别隐藏的亵渎文字，考虑到上面详述的功能。应用与距离相关的特征，即对俚语单词应用levenshtein距离，应该使用这个标记器输出更好的结果。

安装

使用pip

pip安装twikenezer

克隆存储库

git克隆https://github.com/Guilherme-Routar/Twikenizer.git

用法

>importtwikenizerastwk>twk=twk.Twikenizer()>tweet='This is an #hashtag'>twk.tokenize(tweet)['This','is','an','#hashtag']

Twikenizer有一个内置函数examplify，它演示了如何标记不同类型的单词/标记。

>twk.examplify()Generatedtweet###############Tw33t# @dude_really #hash_tag $hit (g@y) retard#d @dude. ?? !?abc %?lol #hateit #hate.it $%&/ f*ck-Generatedtokens################['Tw33t','#','@dude_really','#hash_tag','$hit','(','g','@','y',')','retard#d','@dude','.','?','?','!','?','abc','%','?','lol','#hateit','#hate','.','it','$','%','&','/','f*ck','-']´´´

欢迎加入QQ群-->： 979659372

twikenizer 1.0

twikenizer的Python项目详细描述

Twikenizer

说明

安装

用法

推荐PyPI第三方库

dffml-model-pytorch

nbdev-test

godata

pylibjpeg-openjpeg

segurata

decaychain

qnlp

pymail-io

getbaboon

pyndex-fin

monk-pytorch-cuda92-test

pythondata-cpu-blackparrot

xlayers

userkit

johnn

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

twikenizer 1.0

twikenizer的Python项目详细描述

Twikenizer

说明

安装

用法

推荐PyPI第三方库

dffml-model-pytorch

nbdev-test

godata

pylibjpeg-openjpeg

segurata

decaychain

qnlp

pymail-io

getbaboon

pyndex-fin

monk-pytorch-cuda92-test

pythondata-cpu-blackparrot

xlayers

userkit

johnn

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签