未提供项目说明

tkseem的Python项目详细描述


^{1}$ 在

tkseem(تقžيم)是一个标记化库,它封装了阿拉伯语文本的标记化和预处理的不同方法。在

文件

有关完整文档,请访问readthedocs。在

安装

pip install tkseem

使用

标记化

^{pr2}$

缓存

tokenizer.tokenize(open('data/raw/train.txt').read(),use_cache=True)

保存并加载

importtkseemastktokenizer=tk.WordTokenizer()tokenizer.train('samples/data.txt')# save the modeltokenizer.save_model('vocab.pl')# load the modeltokenizer=tk.WordTokenizer()tokenizer.load_model('vocab.pl')

模型不可知

importtkseemastkimporttimeimportseabornassnsimportpandasaspddefcalc_time(fun):start_time=time.time()fun().train()returntime.time()-start_timerunning_times={}running_times['Word']=calc_time(tk.WordTokenizer)running_times['SP']=calc_time(tk.SentencePieceTokenizer)running_times['Random']=calc_time(tk.RandomTokenizer)running_times['Disjoint']=calc_time(tk.DisjointLetterTokenizer)running_times['Char']=calc_time(tk.CharacterTokenizer)

笔记本电脑

我们展示了如何使用tkseem来训练一些nlp模型。在

NameDescriptionNotebook
DemoExplain the syntax of all tokenizers.
Sentiment Classification WordTokenizer for processing sentences and then train a classifier for sentiment classification.
Meter ClassificationCharacterTokenizer for meter classification using bidirectional GRUs.
TranslationSeq-to-seq model with attention.

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java为什么会出现这些错误?表达式的非法开始   使用HttpUrlConnection的java测试URL仅适用于前面的www   在大数据集上使用kmeans的java堆外内存   查找Java RandomAccessFile如何以字符形式读取第n个字节   java Android从BroadcastReceiver获取标题和描述   java使用构造函数参数模拟嵌套类并测试方法   正在将Azure Blob项强制转换为Java文件对象   java并行运行testNG套件   java程序在运行时似乎没有进入   贬低Java规则引擎的优点和缺点   文本区域中的java中心文本   java JPA从多个表中选择错误   类Java问题使用类加载器重新加载代码   java如何在Spring非管理类上使用@Value   java(关闭)Gradle导入VS代码失败   java arraylist拆分(“空白”)并计算字数   Android/Java如何在单独的*中调用函数。java文件?   具有基本身份验证的java Apache Camel RSS模块   java为什么程序在出现溢出或下溢时不抛出异常