英伟达 H100 在 MLPerf AI 性能测试刷新纪录:11 分钟不到完成 GPT-3 大模型训练 今日精选

时间 : 2023-06-28 10:02:56 来源 : 站长之家

编程客栈() 6月28日消息:MLPerf 基准测试是评估系统在一系列人工智能工作负载下的性能表现的重要指标。人工智能正在快速发展,生成式人工智能工作负载日NHJqtRFOBx益突出,而 MLPerf 也在与行业一起不断进化。其最新的 MLPerf Training v3.0 基准套件引入了推荐引擎和大型语言模型(LLM)训练的新测试。

MLCommons 负责监督 MLPerf,并于今天发布了最新的 MLPerf 基准测试结果。英伟达 H100 几乎在每个类别中占据主导地位,并成为新 LLM 基准测试中唯一使用的 GPU。

在 LLM 和 BERT 自然语言处理(NLP)基准测试中,英伟达和 Inflection AI 共同开发的系统在 CoreWeave 上表现最佳。这家云服务提供商专注于大规模 GPU 加速工作负载。可以说,这些数据令人印象深刻。


(相关资料图)

英伟达 H100 在每个基准测试中均刷新了最佳记录

MLPerf LLM 基准测试基于 OpenAI 的 GPT-3 LLM,训练了 1750 亿个参数(GPT-3 是该基准测试创建时最新一代的 GPT)。训练 LLM 是一项计算密集型任务,Lambda Labs 估计,训练 1750 亿个参数的 GPT-3 需要约 3.14E23 次计算浮点运算(FLOPS)。这需要大量昂贵的计算资源。

英伟达专为这些工作负载设计了 H100 Tensor Core GPU,并迅速成为训练大型语言模型中最受欢迎的加速器之一。这是有充分理由的。英伟达在 H100 中引入了新的 Transformer 引擎,专门用于加速 Transformer 模型的训练和推断(英伟达在一篇博文中对该设备的全部功能进行了出色的描述)。Transformer 是生成式人工智能的核编程客栈心,因此预期 H100 的性能应优于以前的一代。英伟达表示,H100 上的所有内容都更快,新的 Transformer 引擎将训练加速高达 6 倍。

在今天的结果中,90 个系统中有 82 个使用了英伟达加速器(除了 18 个非英伟达系统中的一个外,其余所有系统均由英特尔提交)。将近一半的结果基于英伟达 H100 Tensor Core GPU。英伟达 H100 在 MLPerf 训练和推断基准测试中创下了记录,而英伟达的 A100 和 L4 GPU 提供了出色的推断结果。

更深入地了解指标,英伟达 H100 Tensor Core GPU 的每个加速器 LLM 训练时间为 548 小时(约 23 天)。该 GPU 在每个基准测试中也刷新了每个加速器的记录。

大规模 LLM:英伟达 + Inflection AI + CoreWeave

查看每个加速器的结果很有趣,但现实世界的生产工作负载很少使用单个加速器构建。在具有多个 GPU 的集群系统中,会出现规模效益,英伟达从一开始就考虑到了这一点,其持续关注使用其 NVLink 技术进行 GPU 间通信的规模化 GPU 集群。了解实际性能需要从系统级别来看结果。

英伟达和 Inflection AI 共同开发了一个基于英伟达 H100 Tensor Core GPU 的大规模 GPU 集群系统,由 Coreweave 托管和测试。该系统组合了 3,584 个英伟达 H100 加速器和 896 个第四代英特尔 Xeon Platinum 8462Y+处理器。结果令人震撼,在测试的每个工作负载上都创下了新纪录。

深入研究 LLM 基准测试展示了英伟达技术的全部能力。这个由 3,854 个 GPU 组成的集群在大规模基于 GPT-3 的训练基准测试中完成时间不到 11 分钟,而只有一半数量的 GPU 的配置则需要将近 24 分钟,展示了英伟达 H100 GPU 的非线性可扩展潜力。

英特尔是唯一另一个报告 LLM 基准测试结果的实体。英特尔php的系统结合了 64-96 个英特尔 Xeon Platinum 8380 处理器和 256-389 个英特尔 Habana Gaudi2 加速器。英特尔报告了其最高配置的 LLM 训练时间为 311 分钟。

分析师观点

基准测试提供了系统的时点比较。几乎所有提交的结果都基于英伟达加速器,这表明英伟达在人工智能生态系统中的持续主导地位。尽管这种主导地位在很大程度上基于其加速器技术,但英伟达在生态系统中的黏性仍然在很大程度上受到 AI 社区对其软件的依赖。

英伟达不仅提供底层的 CUDA 库和工具,几乎所有 AI 框架都是基于它们开发的,该公司还在软件层面上提供全套的 AI 工具和解决方案。除了支持 AI 开发人员编程客栈外,英伟达还不断投编程客栈资于管理工作负载和模型的企业级工具。英伟达在行业中在软件方面的投资是无与伦比的,并将在可预见的未来继续保持领先地位。虽然会有非英伟达的训练解决方案出现,但它们将继续是例外。

从 MLPerf 结果中得出的最重要结论不仅仅是英伟达的新一代 H100 Tensor Core 加速器的原始性能,而是在云中运行 AI 训练工作负载的强大和高效性。构建任何规模的训练集群都是一项昂贵且复杂的任务。尽管英伟达没有公布 H100 加速器的定价,但估计每个加速器的价格在 3 万至 4 万美元之间。CoreWeave 提供每小时 2.23 美元的租用服务,可以提供与现场实际安装的相媲美的训练结果(此外,值得一提的是,目前还无法从任何顶级公共云提供商那里获得 H100 的使用时间;目前没有 CSP 提供基于 H100 的实例)。

人工智能正在改变我们与技术互动的方式,改变企业的运作方式以及我们理解周围数据的方式。英伟达处于这场革命的中心,迅速扩大其在几乎所有数据中心元素中的存在。英伟达不再只是我们成长过程中的游戏图形公司,而是迅速成为我们集体未来的关键推动者。

标签:

相关阅读

热门文章