去年,我们推出了首款针对GoogleKubernetesEngine的GPUalpha产品,使用NVIDIATeslaGPU,并获得了惊人的客户响应。今天,Kubernetes引擎中的GPU处于beta阶段,并且可以在最新的Kubernetes Engine版本中广泛使用。

在Kubernetes Engine中使用GPU可以增强计算密集型应用,如机器学习(ML),图像处理和财务建模。通过将CUDA工作负载打包到容器中,无论何时需要,都可以从Kubernetes Engine GPU的强大处理能力中受益,而无需管理硬件甚至虚拟机。

凭借其一流的CPU,GPU和现在的TPU,GoogleCloud为在云中运行ML工作负载提供了最佳选择,灵活性和性能。例如,搭乘共享先驱Lyft使用Kubernetes Engine中的GPU来加速其深度学习模型的训练。

GKE集群非常适合深度学习工作负载,具有开箱即用的GPU集成,针对尖端培训工作负载的自动缩放集群以及集成的容器记录和监控。“

-Lyft工程副总裁Luc Vincent

NVIDIA®(英伟达™)Tesla P100和K80 GPU作为beta版本的一部分提供,并且V100即将问世。最近,我们还推出了可抢占式GPU以及新的更低价格,为你解开新的机遇。

在Kubernetes引擎中开始使用GPU

使用Kubernetes Engine中的GPU创建集群非常简单。从云控制台,可以在“创建Kubernetes群集”页面上展开机器类型,以选择GPU的类型和数量。

t01670fca2ff16a7c06 - 谷歌发布:Kubernetes引擎中的GPU发布beta版

如果想要将具有GPU的节点添加到现有集群中,则可以使用节点池和集群Autoscaler功能。通过在GPU中使用节点池,群集可以在需要时使用GPU。与此同时,Autoscaler可以在请求GPU的pods被调度时自动创建具有GPU的节点,并且当GPU不再被任何活动的pod消耗时,缩小到零。

以下命令使用GPU创建一个节点池,最多可扩展到五个节点,最少可扩展到零个节点。

gcloud beta container node-pools create my-gpu-node-pool –accelerator=type=nvidia-tesla-p100,count=1 –cluster=my-existing-cluster–num-nodes 2 –min-nodes 0 –max-nodes 5 –enable-autoscaling

在后台,Kubernetes引擎应用了 taint和 toleration技术,以确保只有GPU请求的GPU才会在具有GPU的节点上进行调度,并防止不需要GPU的GPU运行。

尽管Kubernetes Engine为你后台做了很多事情,但我们也希望你了解GPU作业的表现如何。 Kubernetes Engine公开了使用GPU的容器度量标准,例如GPU的繁忙程度,可用的内存量以及分配的内存量。还可以使用Stackdriver来查看这些指标。

t013c78390bbbd653a2 - 谷歌发布:Kubernetes引擎中的GPU发布beta版

有关使用GPU的Kubernetes引擎的更详细的解释,例如安装NVIDIA驱动程序以及如何配置一个pod以使用GPU,请查看文档。

用Kubernetes解决新的工作负载

2017年,Kubernetes Engine核心工作时间同比增长9倍,并且该平台作为ML工作负载的首要部署平台获得了巨大的发展动力。对于像Kubeflow这样的开源项目,我们感到非常兴奋,它使得它在Kubernetes中运行ML堆栈变得简单,快速和可扩展。我们希望这些开源ML项目和GPU在Kubernetes Engine中的结合将帮助您在商业,工程和科学领域进行创新。

今天就尝试

要开始使用带有Kubernetes Engine的GPU,使用我们免费试用的300美元积分,需要升级你的帐户并申请GPU配额才能生效。

感谢你在制定我们的路线图方面提供支持和反馈,以更好地满足您的需求。保持对话进行,并在Kubernetes引擎频道与我们联系。

原文链接:https://www.jocat.cn/archives/2465,转载请注明出处。
0
显示验证码
没有账号?注册  忘记密码?