twitter评论的标记器(tweets)

twikenizer的Python项目详细描述


Twikenizer

这个存储库托管tweets的标记器的代码。它的主要目的是识别细微的亵渎,所以它应该 在包含隐藏亵渎的数据(例如“f*ck”)上获得更好的性能。

免责声明:以下段落可能包含亵渎。

说明

python提供了一组用于不同目的的语句标记器:nltk的word标记器、spacy的、scikit learn的默认标记器和 TweetTokenizer等等。除了TweetTokenizer之外,其他所有的标记都忽略了标签,并通过将符号与其他标记分离来提及。 尽管tweetTokenizer考虑twitterdialect,但它无法标记隐藏的细微亵渎。

对于单词f*ck,考虑的标记是[f, *, ck]。单词g@y被标记为[g, @y],考虑到 一个标记g和一个被错误识别的提及@y。而标签#hash_tag被正确标记为 [#hash_tag]regular标记没有下划线分隔:love_twitter被标记为['love_twitter'],而不是['love', '_', 'twitter']

Twikenizer的创建是为了能够正确识别隐藏的亵渎文字,考虑到上面详述的功能。应用与距离相关的特征,即对俚语单词应用levenshtein距离,应该使用这个标记器输出更好的结果。

安装

使用pip

pip安装twikenezer

克隆存储库

git克隆https://github.com/Guilherme-Routar/Twikenizer.git

用法

>importtwikenizerastwk>twk=twk.Twikenizer()>tweet='This is an #hashtag'>twk.tokenize(tweet)['This','is','an','#hashtag']

Twikenizer有一个内置函数examplify,它演示了如何标记不同类型的单词/标记。

>twk.examplify()Generatedtweet###############Tw33t# @dude_really #hash_tag $hit (g@y) retard#d @dude. ?? !?abc %?lol #hateit #hate.it $%&/ f*ck-Generatedtokens################['Tw33t','#','@dude_really','#hash_tag','$hit','(','g','@','y',')','retard#d','@dude','.','?','?','!','?','abc','%','?','lol','#hateit','#hate','.','it','$','%','&','/','f*ck','-']´´´

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java中的else if语句返回语法错误   http如何解析从表单到REST Java/Webservice的post请求   java如何在SpringBoot中为RestTemplate编写JUnit测试   java动态检查实例是否实现接口   java在Android中使用ArrayAdaptor时,数据不会显示   根据前序遍历返回二进制树的java方法   Arquillian测试类中的java注入始终为空   用户界面Java Swing自定义控件   java使用CompletableFutures递归地从同一函数的多个调用构建列表   在Java中将“.00”添加到整数BigDecimal   卡夫卡java未知\u主题\u或\u部分错误间歇性   java为什么我的getString()方法总是返回null?   java renameTo无法重命名文件   java为什么我可以强制转换对象?可以用其他对象来完成吗?   带有回写条件的java多根记录器   关于stackoverflow错误的java帮助?   java Websphere消息队列多线程   Java图形窗口/画布未垂直显示完整的六边形网格   java Sakai未在Tomcat服务器中启动