在阿里云Kubernetes上使用ENI进行分布式机器学习训练

  • 时间:
  • 浏览:1

没人 有没人 有有兩个 方案能

就让 在实践会中发现就让 是以GPU为计算设备,在多机场景下,网络效率和延迟会成为遗弃训练效率的主要瓶颈。很多在实践中,多数人会选用放弃使用overlay网络,直接选用HostNetwork,避免vxlan带来的性能开销。就让 HostNetwork的缺点也显而易见,有有兩个 是端口的管理错综复杂度,另外有有兩个 是主机网络的安全性隐患。

模型训练是机器学习最主要的实践场景,尤其以使用机器学习框架TensorFlow进行模型训练最为流行,就让 随着机器学习的平台由单机变成集群,什儿 问题报告 变得错综复杂了。利用KubeFlow社区的自定义资源TFJob/MPIJob/MxNetJob都能否在Kubernetes集群方便的运行其不同的分布式训练框架,避免了易用性和训练生命周期管理的问题报告 。而阿里云容器服务开源的Arena能让这有有兩个 操作更加简单直观。