为 AI 和机器学习优化 GPU 工作负载

By Altair 技术合作伙伴 | NVIDIA |

在当今的数据中心和云中,GPU 已成为加速高性能计算 (HPC) 的主要部件,特别是对于人工智能 (AI) 和机器学习 (ML) 工作负载。推动更快、更高效的计算和优化的输入/输出 (I/O) 以及最终获得更好的结果时间和投资回报率需要支持 GPU 的工具,包括工作负载管理和作业调度软件。

英伟达 DGX 系统的 AI 领导力

在 AI 数据中心,管理分布式 GPU 驱动的 ML 框架是一项核心挑战。数据科学家运行各种工作负载,从数据准备和模型训练到模型验证和推理。工作负载需要快速运行、有效利用资源,并且在部署时需要考虑 CPU 和 GPU 架构、内存、缓存、总线拓扑以及互连和网络交换机拓扑等因素。

图片由英伟达提供

英伟达 DGX™ 系统专为深度学习应用而打造。该系列产品包括 英伟达 DGX A100 and 英伟达 DGX 站™ A100 系统。各行各业的组织都使用 NVIDIA DGX 来推动他们的 AI 计划并改变世界。事实上,美国排名前十的政府机构中的九个、美国排名前十的国立大学中的八所、美国排名前十的医院中的七家、全球十大汽车制造商中的七家都使用了 NVIDIA DGX 技术。

英伟达 GPU 架构上的工作负载管理

Altair 工作负载管理和作业调度工具,包括 Altair® PBS Professional® and Altair® Grid Engine®, 针对 GPU 环境(例如 NVIDIA DGX 系统)中的性能进行了优化。 PBS Professional 版本 2021.1.1 不仅支持在多个 GPU 服务器和多节点 GPU 服务器上调度工作负载以提高吞吐量和并行处理,而且还支持在工作负载未完全饱和 GPU 的计算能力时使用多实例 GPU (MIG)。 MIG 允许将 GPU 安全地划分为最多七个独立的 CUDA® 应用程序实例。

PBS Professional 将 GPU 和 GPU 实例视为可消耗资源(一级资源),并允许用户以整数单位(例如,1、2、3 等)请求它们。 PBS Professional 可以自动检测 NVIDIA DGX 系统上的 GPU/GPU 实例并隔离它们以完成工作。无论实例大小如何,PBS Professional 均等地调度和分配每个 GPU 实例。它还使用 Singularity 和 Docker 为容器作业提供相同级别的 GPU 调度和隔离。

Altair Grid Engine 为调度 GPU 感知应用程序和容器提供了丰富的支持。它为从单个 DGX 系统到包含数千个 GPU 的集群的 NVIDIA DGX 环境提供高效的工作负载和资源管理功能。 Altair Grid Engine 8.6.0 及更高版本与 NVIDIA 数据中心 GPU 管理器集成,提供有关 GPU 资源的详细信息。 

通过这种集成,Altair Grid Engine 可以全面了解每台主机上的 GPU,包括 GPU 类型和版本;有效内存;工作温度;以及套接字、核心和线程的亲和性。此信息有助于 Altair Grid Engine 更有效地调度 GPU 感知应用程序,以优化性能和资源使用。 

Altair Grid Engine 内置了对 Docker 和 NVIDIA Container Toolkit 的支持,允许用户管理容器化 GPU 工作负载,就像管理任何 Grid Engine 作业一样。

通过使用 Altair 工作负载管理解决方案来管理 NVIDIA DGX 系统上的 GPU 工作负载,组织可以提高性能、更有效地使用资源并提高整体生产力。 PBS Professional 和 Altair Grid Engine 都为 HPC 和 EDA 领域的客户有效地支持 NVIDIA GPU。 PBS Professional 长期以来一直是包括制造和汽车设计在内的计算密集型行业的首选解决方案,Altair Grid Engine 支持许多医疗保健和生命科学提供商的 GPU 支持和分布式计算。

面向 AI 的支持 GPU 的 HPC 的未来

保持领先于人工智能浪潮的竞赛正在进行中。 NVIDIA 从全球经过现场验证的 AI 部署中汲取知识,并构建了 NVIDIA DGX 系统,该系统具有可复制的、经过验证的设计,每个企业都可以从中受益。 

包括 Altair 工作负载管理工具在内的经过验证的企业级软件的 NVIDIA 生态系统经过全面测试和认证,可在 NVIDIA DGX 系统上使用,从而简化了 AI 基础架构的部署、管理和扩展。

– Chris Porter,NVIDIA 高级技术营销经理