我有以下问题:当我用我自己的数据集重新训练TF对象检测API时,训练经常被终止,我不知道原因。没有错误日志,只是被杀了。
而且,为什么在我的MODEL_DIR
中只保存了很少的model.ckpt-XXXX
?在
其次,当我尝试用提供的脚本将上述模型导出到冻结的图形时,我在分析中发现存在不完整的形状:
================== Model Analysis Report ======================
Incomplete shape.
我用了model.cpkt-XXXX
在训练过程中被杀后,这是形状不完整的原因吗?在
导出的模型可以用于推理,但我猜它不是最优的。。。在
仅供参考,我已经用1个类重新训练了mobileSDV2,并修改了关于更改的管道配置文件,如下所示:
config {}
部分,我将批大小更改为12,并将步骤数设置为200train_input_reader
和eval_input_reader {}
部分,我添加了我的路径TF记录和labelmap.pbtxt
eval_config {}
部分,我将示例的数量更改为85(我的eval images存储库中的图片数量),并将max eval更改为5。在我在python2.7的virtualenv中使用了ubuntu16.04和tensoflowgpu1.12.0。在
提前谢谢你。在
如果您使用的是tensorflow gpu,并且您有一个gpu,200是一个非常低的数字,您可以在不到几分钟的时间内到达(并且您的conv网络将什么也学不到)。至少增加到100000。在
此外,由于培训步骤的数量较少,您可能希望培训在开始(步骤0)和结束培训(步骤200)时保存模型,因此您只能得到2个模型。在
Tensorflow每600秒保存一次模型,如果您不更改保存间隔时间内部培训师.py
相关问题 更多 >
编程相关推荐