全球最常用语言和社交媒体文本的标记器,如Facebook、Twitter等。

polyglot-tokenizer的Python项目详细描述


全球最常用语言和社交媒体文本的标记器,如Facebook、Twitter等。

安装

pip install polyglot-tokenizer

示例

在python中

>>>from__future__importunicode_literals>>>frompolyglot_tokenizerimportTokenizer>>>tk=Tokenizer(lang='en',smt=True)#smt is a flag for social-media-text>>>text="RT @BJP_RSS Crack down on Black money.India slides to 75th slot on Swiss bank money list #ModiForeignAchievements @RituRathaur https://t.c…">>>tk.tokenize(text)['RT','@BJP_RSS','Crack','down','on','Black','money','.','India','slides','to','75th','slot','on','Swiss','bank','money','list','#ModiForeignAchievements','@RituRathaur','https://t.c…']>>>tk=Tokenizer(lang='hi')>>>tk.tokenize("22 साल के लंबे इंतजार के बाद आखिरकार हॉलीवुड स्टार लियोनार्डो डिकैप्रियो को अपनी पहली ऑस्कर ट्रॉफी"..." मिल चुकी है। उन्हें ये अवॉर्ड अपनी फिल्म ‘द रेवेनेंट’ में ह्यूज ग्लास के किरदार के लिए मिला, लेकिन उनके"..." के लिए रोल निभाना आसान नहीं था।")['22','साल','के','लंबे','इंतजार','के','बाद','आखिरकार','हॉलीवुड','स्टार','लियोनार्डो','डिकैप्रियो','को','अपनी','पहली','ऑस्कर','ट्रॉफी','मिल','चुकी','है','।','उन्हें','ये','अवॉर्ड','अपनी','फिल्म',"'",'द','रेवेनेंट',"'",'में','ह्यूज','ग्लास','के','किरदार','के','लिए','मिला',',','लेकिन','उनके','के','लिए','रोल','निभाना','आसान','नहीं','था','।']>>>tk=Tokenizer(lang='hi',split_sen=True)>>>tk.tokenize("22 साल के लंबे इंतजार के बाद आखिरकार हॉलीवुड स्टार लियोनार्डो डिकैप्रियो को अपनी पहली ऑस्कर ट्रॉफी"..." मिल चुकी है। उन्हें ये अवॉर्ड अपनी फिल्म ‘द रेवेनेंट’ में ह्यूज ग्लास के किरदार के लिए मिला, लेकिन उनके"..." के लिए रोल निभाना आसान नहीं था। फिल्म एक सीन के लिए लियोनार्डो को भैंस का कच्चा लीवर खाना"..." पड़ा था। जबकि असल जिंदगी में वो पूरी तरह शाकाहारी हैं। हालांकि इस सीन के लिए पहले लियोनार्डो को"..." मांस जैसे दिखने वाली चीज दी गई थी, लेकिन उन्हें लगा कि ऐसा करना गलत होगा। फिल्म के लिए इम्पोर्ट"..." की गई चीटियां...")[['22','साल','के','लंबे','इंतजार','के','बाद','आखिरकार','हॉलीवुड','स्टार','लियोनार्डो','डिकैप्रियो','को','अपनी','पहली','ऑस्कर','ट्रॉफी','मिल','चुकी','है','।'],['उन्हें','ये','अवॉर्ड','अपनी','फिल्म',"'",'द','रेवेनेंट',"'",'में','ह्यूज','ग्लास','के','किरदार','के','लिए','मिला',',','लेकिन','उनके','के','लिए','रोल','निभाना','आसान','नहीं','था','।'],['फिल्म','एक','सीन','के','लिए','लियोनार्डो','को','भैंस','का','कच्चा','लीवर','खाना','पड़ा','था','।'],['जबकि','असल','जिंदगी','में','वो','पूरी','तरह','शाकाहारी','हैं','।'],['हालांकि','इस','सीन','के','लिए','पहले','लियोनार्डो','को','मांस','जैसे','दिखने','वाली','चीज','दी','गई','थी',',','लेकिन','उन्हें','लगा','कि','ऐसा','करना','गलत','होगा','।'],['फिल्म','के','लिए','इम्पोर्ट','की','गई','चीटियां','...']]

从控制台

polyglot-tokenizer --h

usage: polyglot-tokenizer [-h] [-v] [-i] [-s] [-t] [-o] [-l]

Tokenizer for world's most spoken languages


optional arguments:
  -h, --help            show this help message and exit
  -v, --version         show program's version number and exit
  -i , --input          <input-file>
  -s, --split-sentences
                        set this flag to apply sentence segmentation
  -t, --social-media-test
                        set this flag if the input file contains social media
                        text like twitter, facebook and whatsapp
  -o , --output         <output-file>
  -l , --language       select language (2 letter ISO-639 code) {hi, ur, bn,
                        as, gu, ml, pa, te, ta, kn, or, mr, cu, myv, nn, yi,
                        ne, bo, br, ks, en, es, ca, cs, de, el, en, fi, da,
                        eu, kok, nb, uz, fr, ga, hu, is, it, lt, lv, nl, pl,
                        pt, ro, ru, sk, bm, yue, mk, ku, sl, sv, zh, et, fo,
                        gl, hsb, af, ar, be, hy, bg, ka, ug, hr, mn, tk, kk,
                        ky, la, no, fa, uk, tl, tr, vi, yo, ko, got, ckb, he,
                        id, sr}

Example ::

polyglot-tokenizer < raw_file.txt -l en -s > tokenized.txt

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java Google应用程序引擎Jsf2 welcomefilelist不工作   Java学校练习   jar如何在java应用程序中完成http请求流   java在将列表数据放入映射时遇到异常   java安卓studio谷歌前置条件   在Eclipse中使用gradle运行java项目   java CXF返回元素列表   java直线与垂线相交的精度   java将图像从磁盘加载到JSP页面   多线程在Java多线程进程中更新布尔值   java SDK目录“C:\Users\User\AppData\Local\Android\SDK”不存在   单击“确定”按钮时,java GUI登录系统不会做出反应   雅加达。网ConnectException:添加weblogicapplication后。xml   在两个用户定义的点之间进行java二进制搜索,返回输入的两个点之间的所有名称   需要Java IntelliJ帮助才能不读取我的文件吗   java在序列化过程中动态忽略JSON属性仅在某些情况下,对于其他api端点,不应进行过滤   java SpringBoot REST API MockMVC测试未成功创建用户,尽管在React项目中使用了相同的功能   调试java。jvisulavm中添加JMXConnection时的lang.SecurityException   基于java的web边缘检测浏览器