python中预训练的单词嵌入。

embeddings的Python项目详细描述


Documentation Statushttps://travis-ci.org/vzhong/embeddings.svg?branch=master

embeddings是一个python包,它为自然语言处理和机器学习提供预训练的单词嵌入。

与加载大文件查询嵌入不同,embeddings由数据库支持,加载和查询速度快:

>>>%timeitGloveEmbedding('common_crawl_840',d_emb=300)100loops,bestof3:12.7msperloop>>>%timeitGloveEmbedding('common_crawl_840',d_emb=300).emb('canada')100loops,bestof3:12.9msperloop>>>g=GloveEmbedding('common_crawl_840',d_emb=300)>>>%timeit-n1g.emb('canada')1loop,bestof3:38.2µsperloop

安装

pip install embeddings  # from pypi
pip install git+https://github.com/vzhong/embeddings.git  # from github

用法

第一次使用时,嵌入首先以sqlite数据库的形式下载到磁盘。 对于手套等大型嵌入件,这可能需要很长时间。 对数据库直接查询嵌入的进一步使用情况。 嵌入数据库存储在$EMBEDDINGS_ROOT目录中(默认为~/.embeddings)。注意,如果您的主目录在nfs上,那么这个位置可能是不需要的,因为它会显著减慢数据库查询的速度。

fromembeddingsimportGloveEmbedding,FastTextEmbedding,KazumaCharEmbedding,ConcatEmbeddingg=GloveEmbedding('common_crawl_840',d_emb=300,show_progress=True)f=FastTextEmbedding()k=KazumaCharEmbedding()c=ConcatEmbedding([g,f,k])forwin['canada','vancouver','toronto']:print('embedding {}'.format(w))print(g.emb(w))print(f.emb(w))print(k.emb(w))print(c.emb(w))

码头工人

如果使用Docker,则可以在vzhong/embeddings处找到一个预先填充了Common Crawl 840手套嵌入和桥本kazuma字符NGRAM嵌入的图像。 要从此容器装入卷,请将容器中的$EMBEDDINGS_ROOT设置为/opt/embeddings

例如:

docker run --volumes-from vzhong/embeddings -e EMBEDDINGS_ROOT='/opt/embeddings' myimage python train.py

贡献

拉请求欢迎!

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何将外部库(LIB)集成到grails项目中?   java 安卓:progressTintMode、安卓:secondaryProgressTintMode和安卓:progressDrawable做什么?   java获得了启动播放器的精确方向   java如何在布局/样式XML中设置状态栏着色颜色?   Java中的图形游戏未显示   java如何在WebSphere8.5.5中的我的JAAS自定义登录模块中使用SAML令牌属性值   使用jackson spring API解析嵌套json   java如何从用户请求中获取用户代理?   Netbeans 6.8中的java UI控件定位   java显示listgrid中两个表中的数据   java Google Cloud Bigtable客户端连接池   Vert中的java更改日志级别。通过添加一个配置文件   java调用构造函数是否意味着创建实例?   java getFrom()[0])中[0]用于获取邮件发件人地址的用法是什么   “继续”标志的java Gradle属性?   jakarta ee如何在java ee中创建GUID   java不兼容类型:无法将int转换为整数   java需要借助DefaultHandler的characters函数将XML数据读入安卓应用程序   java mapstruct将方法应用于列表中的所有对象