发布于 2022-04-28
提高GPU的资源利用率需要从几个方面考虑:1. 选择正确的GPU,不同GPU有不同使用场景,例如A100,A30用于加速计算,A40用于图像渲染处理。2. 软件工具选用英伟达在GPU上做过优化的库,例如NVAIE 软件套件中包含的6个工具库满足AI开发者在开发过程中所需要的所有工具,加速开发周期。... (more)
可以使用NVAIE软件套件,该软件套件在Openshift, VMware Tanzu以及上游K8S都已做了性能认证,可以通过NVAIE中的Operator模块支持云原生的编排调度和扩展。
当客户需要将AI技术从原来的原型开发转变到生产运营阶段,企业需要的可靠的,有企业级服务支持和SLA保证的AI套件,减少IT对AI应用的部署风险。例如金融中的反欺诈应用,医疗行业的医疗影像识别都是作为企业业务在日常工作中需要维护的AI应用,NVAIE提供了平台认证过的,云原生的AI工... (more)
客户也可以使用MIG (muilti-instance-GPU)技术对GPU进行物理切分,可以查看https://www.nvidia.com/en-us/technologies/multi-instance-gpu/无论客户是用MIG还是vGPU都可以通过NVAIE软件套件的Operator组件进行优化管理... (more)
使用GPU Operator。它使基础架构团队能够在集群级别与 Kubernetes 一起使用时管理 GPU 的生命周期。 因此,无需单独管理每个节点。以前,基础架构团队必须管理两个操作系统镜像,一个用于 GPU 节点,一个用于 CPU 节点。 使用 GPU Operator 时,基础架构团队也可以将 CPU 映像与 ... (more)
NVIDIA AI Enterprise软件套件在VMware Vsphere 上做了认证和测试,在A100 GPU裸金属环境下运行 BERT-Large或者SSD-Resnet34模型,和在VMware Vsphere 运行的速度是非常接近的。如果客户已经有了VMware的虚拟环境,建议采用NVIDIA AI Enterprise软件套件,可以确保GPU... (more)
发布于 2022-04-24
作为一个软件套件,NVIDIA AI Enterprise 能够助力企业组织利用AI 的强大功能,即使他们目前尚未掌握 AI 专业知识也无妨。NVIDIAAI Enterprise 经过优化,可简化 AI 开发和部署流程,内含经验证的开源容器和框架,这些容器和框架经过认证,可以在VMware 和 Red Hat 的常见数据中心、... (more)
发布于 2022-04-13
建议参考 “GPU Operator” 或 “Container Toolkit”https://docs.nvidia.com/datacenter/cloud-native/contents.html
发布于 2022-03-30
在 TAO 提供的数据类范例中,每个脚本的第一个步骤都是环境配置( 0. Set up env variables and map drives ),包括要求用户提供在 NGC 所生成的密钥,对后面训练的模型进行保护,以及指定要使用的 GPU 数量等等,这几个设定都很直观容易处理,但接下去的环境变量配置部分,就让大部分初... (more)
发布于 2022-01-14
可以参考GTC Talk:BMW's Approach to a Holistic Digital Twin Using NVIDIA's Omniversehttps://www.nvidia.com/en-us/on-demand/session/gtcspring21-s32398/
英伟达(NVIDIA) 公司是全球视觉计算技术的行业领袖及GPU(图形处理器)的发明者。NVIDIA 提供能够重塑行业和社会的核心技术. 加速计算需要的不止是强大的芯片。 通过全栈发明,我们实现了从芯片和系统到其运行的算法和应用的惊人提速。NVIDIA 将 AI 引入 各个行业 AI 从研究实验室开始,然后被云计算提供商采用。 现在我们站在下一波 AI 采用浪潮的尖端:企业 AI 自动化。 AI 的下一波浪潮即将到来,它将彻底改变全球最大的产业。