工具从bigcode生成和可视化嵌入
bigcode-embeddings的Python项目详细描述
#bigcode嵌入
注意:数据必须使用[bigcode ast tools][2]生成,才能使用 此工具
bigcode embeddings允许为 AST节点。
##安装
此项目应与Python3一起使用。
要安装软件包,请运行
` pip install bigcode-embeddings `
或者克隆存储库并运行
` cd bigcode-embeddings pip install -r requirements.txt python setup.py install `
注:TensorFlow需要单独安装。
用法
###嵌入式训练
训练数据可以使用[bigcode ast tools][2]
给定从30000大小的词汇表生成的data.txt.gz, 可以使用
` ./bin/bigcode-embeddings train -o embeddings/ --vocab-size 30000 --emb-size 100 --l2-value 0.05 --learning-rate 0.01 data.txt.gz `
[tensorboard][2]可用于可视化进度
` tensorboard --logdir embeddings/ `
在第一个纪元之后,嵌入可视化从 张力板。由bigcode ast tools生成的词汇表tsv文件可以 在嵌入件上贴标签。
###可视化嵌入
可以使用visualize子命令可视化经过训练的嵌入 如果生成的词汇文件是vocab.tsv,则上述嵌入 可以使用以下命令进行可视化
` ./bin/data-explorer visualize clusters -membeddings/embeddings.bin-STEP-l vocab.tsv `
其中,步骤应该是在embeddings/目录中找到的最大值。
可以通过-i标志生成交互式绘图。
[1]:../bigcode ast tools/README.md [2]:https://github.com/tensorflow/tensorboard