11月5日消息,微软宣布,其 Azure ND GB300 v6 虚拟机在 Meta 的 Llama270B 模型上实现了每秒推理速度达110 万 token 的行业新纪录。

微软首席执行官萨提亚・纳德拉在社交媒体上表示:“这一成就是我们与英伟达长期合作和在生产规模运行人工智能方面专业知识的结晶。”

Azure ND GB300 虚拟机采用英伟达的 Blackwell Ultra GPU,具体为 NVIDIA GB300NVL72 系统,配置了 72 个 NVIDIA Blackwell Ultra GPU 和 36 个 NVIDIA Grace CPU,采用单机架构设计。这款虚拟机专为推理工作负载优化,具有 50% 的 GPU 内存提升和 16% 的热设计功率提高。
微软表示:“一个 NVL72 机架的 Azure ND GB300v6 实现了总计110万个 token 每秒的推理速度。” 这一新记录超越了微软之前在 NVIDIA GB200NVL72 机架上实现的 865000 token 每秒的成绩。
根据系统配置,每个GPU的性能大约为 15,200 token每秒。微软还提供了详细的模拟过程和所有日志文件及结果。该性能记录经过了独立的性能验证和基准测试公司 Signal65 的验证。
Signal65 的实验室副总裁拉斯・费洛斯在博客中指出:“这一里程碑不仅突破了每秒百万 token 的障碍,还在一个能够满足现代企业动态使用和数据治理需求的平台上实现。” 他补充道,Azure ND GB300 相较于上一代 NVIDIA GB200 在推理性能上提升了 27%,而仅增加了 17% 的功率规格。与 NVIDIA H100 代相比,GB300 在推理性能上几乎提升了 10 倍,同时在机架级别的功率效率上提高了近 2.5 倍。(AI普瑞斯编译)(转载自:AI普瑞斯)
更多AI资讯请点击:
扫码下载app 最新资讯实时掌握
