使用先进的预先训练的语境化语言模型的多类文本分类,如伯特。

text2class的Python项目详细描述


文本2类

使用最先进的预先训练的语境化语言模型,如BERT,来构建多类文本分类器。每个类只需要几百个样本就可以开始了。在

背景

这个项目是基于我们的研究:Transfer Learning Robustness in Multi-Class Categorization by Fine-Tuning Pre-Trained Contextualized Language Models。在

引文

引用这篇文章,请使用下面的BibTeX引文。在

@article{transfer2019multiclass,
  title={Transfer Learning Robustness in Multi-Class Categorization by Fine-Tuning Pre-Trained Contextualized Language Models},
  author={Liu, Xinyi and Wangperawong, Artit},
  journal={arXiv preprint arXiv:1909.03564},
  year={2019}
}

安装

^{pr2}$

示例用法

创建包含两列的数据帧,例如“text”和“label”。不需要文本预处理。

import pandas as pd
from text2class.text_classifier import TextClassifier

df = pd.read_csv("data.csv")

train = df.sample(frac=0.9,random_state=200)
test = df.drop(train.index)

cls = TextClassifier(
	num_labels=3,
	data_column="text",
	label_column="label",
	max_seq_length=128
)

cls.fit(train)

predictions = cls.predict(test["text"])

高级用法

型号

默认模型是来自Transformers(BERT)的无外壳双向编码器表示,由12个transformer层、每层12个自我注意头和768个隐藏大小组成。下面是您可以使用hub_module_handle指定的当前支持的所有模型。我们预计将来还会有更多的人加入。有关详细信息,请参见BERT's GitHub。在

https://tfhub.dev/google/bert_uncased_L-12_H-768_A-12/1
https://tfhub.dev/google/bert_uncased_L-24_H-1024_A-16/1
https://tfhub.dev/google/bert_cased_L-12_H-768_A-12/1
https://tfhub.dev/google/bert_cased_L-24_H-1024_A-16/1
https://tfhub.dev/google/bert_chinese_L-12_H-768_A-12/1
https://tfhub.dev/google/bert_multi_cased_L-12_H-768_A-12/1

cls = TextClassifier(
	num_labels=3,
	data_column="text",
	label_column="label",
	max_seq_length=128,
	hub_module_handle="https://tfhub.dev/google/bert_uncased_L-12_H-768_A-12/1"
)

贡献

Text2Class是一个开源项目,它的建立和维护是为了更好地服务于机器学习和数据科学界。请随时提交拉请求,为项目作出贡献。通过参与,您应该遵守Text2Class的code of conduct。在

有问题吗?在

有关使用Text2Class的问题或帮助,请提交GitHub问题。在

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java从Dropwizard中的Minio检索文件时,GET请求中的超时是如何处理的?   带Hibernate的java Jackson用于序列化以避免枚举   Raspberry Pi上的java Jave分段错误   java在屏幕旋转时不保存当前片段和数据   java War文件未在Heroku上正确部署   如何使用Java处理Selenium webdriver中的促销广告或cookie   java处理“用法:PApplet[options]<classname>[sketch args]”   java文本文件错误扫描程序   运行第一个JavaFX模块化程序时出现java异常   java将fileoutputstream转换为字符串   如何调试gstreamerjava?   java Spring RestTemplate ResponseBody类是什么样的   如何将JSON数组转换为Java列表。我在用斯文森   javascript在显示div按钮后进入新页面