我想通过部署在Kubernetes上的端点提供文本分类模型(finBERT pytorch模型)的结果
整个管道都在工作,但部署时处理速度非常慢(一句话30秒)。如果我在本地对同一端点计时,我将在1或2秒内得到结果。在本地运行docker映像时,端点还需要2秒钟才能返回结果
当我在请求运行时检查kubernetes实例的CPU使用率时,它没有超过35%,所以我不确定这是否与计算能力不足有关
在向前传球给pytorch模特时,有人看到过这样的表现问题吗?关于我应该调查什么有什么线索吗
非常感谢您的帮助,谢谢
我目前正在使用
限制: 中央处理器:“2” 请求: 中央处理器:“1”
Python:3.7 Pytorch:1.8.1
目前没有回答
相关问题 更多 >
编程相关推荐