Python polyglot-tokenizer包_程序模块 - PyPI

全球最常用语言和社交媒体文本的标记器，如Facebook、Twitter等。

polyglot-tokenizer的Python项目详细描述

全球最常用语言和社交媒体文本的标记器，如Facebook、Twitter等。

安装

pip install polyglot-tokenizer

示例

在python中

>>>from__future__importunicode_literals>>>frompolyglot_tokenizerimportTokenizer>>>tk=Tokenizer(lang='en',smt=True)#smt is a flag for social-media-text>>>text="RT @BJP_RSS Crack down on Black money.India slides to 75th slot on Swiss bank money list #ModiForeignAchievements @RituRathaur https://t.c…">>>tk.tokenize(text)['RT','@BJP_RSS','Crack','down','on','Black','money','.','India','slides','to','75th','slot','on','Swiss','bank','money','list','#ModiForeignAchievements','@RituRathaur','https://t.c…']>>>tk=Tokenizer(lang='hi')>>>tk.tokenize("22 साल के लंबे इंतजार के बाद आखिरकार हॉलीवुड स्टार लियोनार्डो डिकैप्रियो को अपनी पहली ऑस्कर ट्रॉफी"..." मिल चुकी है। उन्हें ये अवॉर्ड अपनी फिल्म ‘द रेवेनेंट’ में ह्यूज ग्लास के किरदार के लिए मिला, लेकिन उनके"..." के लिए रोल निभाना आसान नहीं था।")['22','साल','के','लंबे','इंतजार','के','बाद','आखिरकार','हॉलीवुड','स्टार','लियोनार्डो','डिकैप्रियो','को','अपनी','पहली','ऑस्कर','ट्रॉफी','मिल','चुकी','है','।','उन्हें','ये','अवॉर्ड','अपनी','फिल्म',"'",'द','रेवेनेंट',"'",'में','ह्यूज','ग्लास','के','किरदार','के','लिए','मिला',',','लेकिन','उनके','के','लिए','रोल','निभाना','आसान','नहीं','था','।']>>>tk=Tokenizer(lang='hi',split_sen=True)>>>tk.tokenize("22 साल के लंबे इंतजार के बाद आखिरकार हॉलीवुड स्टार लियोनार्डो डिकैप्रियो को अपनी पहली ऑस्कर ट्रॉफी"..." मिल चुकी है। उन्हें ये अवॉर्ड अपनी फिल्म ‘द रेवेनेंट’ में ह्यूज ग्लास के किरदार के लिए मिला, लेकिन उनके"..." के लिए रोल निभाना आसान नहीं था। फिल्म एक सीन के लिए लियोनार्डो को भैंस का कच्चा लीवर खाना"..." पड़ा था। जबकि असल जिंदगी में वो पूरी तरह शाकाहारी हैं। हालांकि इस सीन के लिए पहले लियोनार्डो को"..." मांस जैसे दिखने वाली चीज दी गई थी, लेकिन उन्हें लगा कि ऐसा करना गलत होगा। फिल्म के लिए इम्पोर्ट"..." की गई चीटियां...")[['22','साल','के','लंबे','इंतजार','के','बाद','आखिरकार','हॉलीवुड','स्टार','लियोनार्डो','डिकैप्रियो','को','अपनी','पहली','ऑस्कर','ट्रॉफी','मिल','चुकी','है','।'],['उन्हें','ये','अवॉर्ड','अपनी','फिल्म',"'",'द','रेवेनेंट',"'",'में','ह्यूज','ग्लास','के','किरदार','के','लिए','मिला',',','लेकिन','उनके','के','लिए','रोल','निभाना','आसान','नहीं','था','।'],['फिल्म','एक','सीन','के','लिए','लियोनार्डो','को','भैंस','का','कच्चा','लीवर','खाना','पड़ा','था','।'],['जबकि','असल','जिंदगी','में','वो','पूरी','तरह','शाकाहारी','हैं','।'],['हालांकि','इस','सीन','के','लिए','पहले','लियोनार्डो','को','मांस','जैसे','दिखने','वाली','चीज','दी','गई','थी',',','लेकिन','उन्हें','लगा','कि','ऐसा','करना','गलत','होगा','।'],['फिल्म','के','लिए','इम्पोर्ट','की','गई','चीटियां','...']]

从控制台

polyglot-tokenizer --h

usage: polyglot-tokenizer [-h] [-v] [-i] [-s] [-t] [-o] [-l]

Tokenizer for world's most spoken languages


optional arguments:
  -h, --help            show this help message and exit
  -v, --version         show program's version number and exit
  -i , --input          <input-file>
  -s, --split-sentences
                        set this flag to apply sentence segmentation
  -t, --social-media-test
                        set this flag if the input file contains social media
                        text like twitter, facebook and whatsapp
  -o , --output         <output-file>
  -l , --language       select language (2 letter ISO-639 code) {hi, ur, bn,
                        as, gu, ml, pa, te, ta, kn, or, mr, cu, myv, nn, yi,
                        ne, bo, br, ks, en, es, ca, cs, de, el, en, fi, da,
                        eu, kok, nb, uz, fr, ga, hu, is, it, lt, lv, nl, pl,
                        pt, ro, ru, sk, bm, yue, mk, ku, sl, sv, zh, et, fo,
                        gl, hsb, af, ar, be, hy, bg, ka, ug, hr, mn, tk, kk,
                        ky, la, no, fa, uk, tl, tr, vi, yo, ko, got, ckb, he,
                        id, sr}

Example ::

polyglot-tokenizer < raw_file.txt -l en -s > tokenized.txt

欢迎加入QQ群-->： 979659372

polyglot-tokenizer 2.0.1.4

polyglot-tokenizer的Python项目详细描述

安装

示例

在python中

从控制台

推荐PyPI第三方库

ergonomics-metrics

odoo13-addon-sale-order-carrier-auto-assign

exotic

appear

notify-events

PyABI-QUADRABLE

django-camunda

turkish-morpholog

sunyt-mylib

deckar01-ratelimit

ExifReader

odoo12-addon-crm-lead-to-event-registration

pyflowchart

pysentimiento

hooks-framework

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

polyglot-tokenizer 2.0.1.4

polyglot-tokenizer的Python项目详细描述

安装

示例

在python中

从控制台

推荐PyPI第三方库

ergonomics-metrics

odoo13-addon-sale-order-carrier-auto-assign

exotic

appear

notify-events

PyABI-QUADRABLE

django-camunda

turkish-morpholog

sunyt-mylib

deckar01-ratelimit

ExifReader

odoo12-addon-crm-lead-to-event-registration

pyflowchart

pysentimiento

hooks-framework

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签