发布于 2022-04-28
可以参考 https://docs.nvidia.com/ai-enterprise/deployment-guide/dg-advance-gpu.html
如果同一个GPU资源指的是同一张GPU卡,其实很难。个人观点,慢慢容器和虚拟化会趋同与同一个平台,大概率会是容器主导的技术方向,特别是在AI的技术路线上,可以更多关注K8S和GPU使用的结合。... (more)
可以参考这个链接 https://docs.nvidia.com/ai-enterprise/deployment-guide/dg-advance-gpu.html
补充一个在GPU池化过程中需要注意的地方。GPU池化表面看起来CPU池化的效果是一样,但是本质有很大的区别,因为在CPU池化后,CPU直接彼此的工作是很少的,但是GPU完全不同,尤其是多张GPU在一些并行计算密集的地方,还需要集合NVLINK技术实现高速的GPU之间的数据交换。另外对于通过虚... (more)
分享一个NVAIE手册里面的一个章节,分别提到了软硬GPU切分的一些颗粒度和技术细节,供大家参考: https://docs.nvidia.com/ai-enterprise/deployment-guide/dg-advance-gpu.html
通过NVAIE 软件套件中GPU Operator可以管理GPU,支持K8S 管理编排。NVAIE中vGPU 组件可以实现GPU虚拟化切分。
可以通过GPU Operator来实现 https://docs.nvidia.com/datacenter/cloud-native/contents.html
关于GPU切分及高效共享的解决方案,行业有很多的技术实现,大致分成Remote CUDA,CUDA原生实现,GPU硬件实现。R-CUDA的方案,也叫远程CUDA和CUDA劫持,是一种基于驱动或CUDA句柄的拦截和转发机制,英伟达官方并不支持这样的做法,尤其在跨服务器请求转发方面,其性能和效果对于网络和处理... (more)
1. NVAIE可以支持只有CPU的服务器完成机器学习任务。例如Triton Inference Server 用于多推理模型部署可以支持仅有CPU的服务器。2. NVAIE中GPU Operator,基础架构团队也可以将 CPU 映像与 GPU 工作节点一起使用。... (more)
可管理性,可靠性和可持续性都是在容器平台比较挑战的问题。可管理性涉及GPU资源的优化与高效的调度,建议参考NVAIE,即英伟达AI企业套件,包括了对于GPU资源池的管理和调度方式,同时对于目前主流的第三方和社区版本K8S都有很好的支持。可靠性除了平台底层能力以为,对于上次应用环... (more)
英伟达(NVIDIA) 公司是全球视觉计算技术的行业领袖及GPU(图形处理器)的发明者。NVIDIA 提供能够重塑行业和社会的核心技术. 加速计算需要的不止是强大的芯片。 通过全栈发明,我们实现了从芯片和系统到其运行的算法和应用的惊人提速。NVIDIA 将 AI 引入 各个行业 AI 从研究实验室开始,然后被云计算提供商采用。 现在我们站在下一波 AI 采用浪潮的尖端:企业 AI 自动化。 AI 的下一波浪潮即将到来,它将彻底改变全球最大的产业。