标题 摘要 内容
    详情


    过去一年,OpenAI在算力上斥资70亿美元。

    其中,大模型研发占了最大头——50亿美元,而推理计算仅用了20亿美元。

    可见,LLM训练正吞噬无尽的算力,这也是OpenAI最近一直在大举扩展超算建设与合作的重要原因。

    采访中,OpenAI总裁Greg Brockman坦言,「内部如何分配GPU,简直就是一场痛苦与煎熬」。

    OpenAI各个团队争抢GPU,那叫一个激烈。最头疼的是,如何去合理分配。


    如今,甲骨文、英伟达、AMD等芯片巨头/云服务巨头,纷纷与OpenAI联结,能够解其燃眉之急。

    这不,就连曾经最大的「金主爸爸」微软也上阵了。

    纳德拉官宣,全球首个配备4600+ GB300的超算率先上线,专攻OpenAI。预计,未来将扩展到十万块GPU。

    英伟达称,这一算力巨兽,可以让OpenAI不用数周,仅在数天内训练万亿参数模型。


    全球首台GB300超算

    数天训出万亿LLM


    就在昨天,微软Azure宣布成功交付了,全球首个生产级超大规模AI集群。

    它搭载了超4600个GB300 NVL72,配备通过下一代InfiniBand网络互联的Blackwell Ultra GPU。

    今年早些时候,微软曾推出GB200 v6虚拟机(VM),通过大规模GB200 NVL2集群,已在OpenAI内部训练部署得到应用。

    这一次,GB300 v6虚拟机再次树立了行业标杆。

    该系统基于机架级设计,每个机架包含18个虚拟机,共计72个GPU:

    • 72个Blackwell Ultra GPU,搭配36个Grace CPU

    • 通过下一代Quantum-X800 InfiniBand,实现每GPU 800 Gb/s的跨机架横向扩展带宽(2x GB200 NVL72)

    • 机架内130 TB/s的NVLink带宽

    • 37TB高速内存

    • 高达1,440 PFLOPS的FP4 Tensor Core性能


    全新设计,为大规模AI超算而生


    为打造出最强超算,微软对计算、内存、网络、数据中心、散热和供电等技术栈的每一层,都进行了重新设计。

    机架层:低延迟高吞吐

    通过NVLink和NVSwitch,GB300 v6在机架层面实现了高达130TB/s的机架内数据传输速率,连接了总计37TB的高速内存,由此消除了内存和带宽瓶颈。

    在大模型和长上下文场景下,推理吞吐量大幅提升,为AI智能体和多模态AI带来前所未有的响应速度和扩展性。

    同时,Azure部署了采用当今最快网络 fabric——Quantum-X800 Gbp/s InfiniBand——的全连接胖树(fat-tree)无阻塞架构,能够跨机架扩展数万个GPU。

    此外,Azure散热系统采用独立的「散热器单元」和「设施级冷却方案」。

    在为GB300 NVL72这类高密度、高性能集群保持热稳定性的同时,最大限度地减少了水资源消耗。

    软件层:全面优化

    不仅如此,微软为存储、编排和调度重构的软件栈也经过全面优化,能够在超算规模上充分利用计算、网络、存储和数据中心基础设施,提供前所未有的高性能和高效率。


    OpenAI GPU争夺战

    一场「痛苦与煎熬」


    在OpenAI内部,正上演一场GPU激烈争夺战。

    上周四,Greg在一期「Matthew Berman」播客节目中,自曝管理算力资源分配的过程,令人揪心且筋疲力尽。

    这太难了,你总能看到各种绝妙的点子,然后又有人带着另一个绝妙的点子来找你,你心想,这个也太棒了。

    在OpenAI内部,将算力资源主要分配给「研究」和「应用产品」两个方向。

    为了应对算力分配的挑战,OpenAI建立了一套相对清晰的资源分配机制:

    • 高层决策:由奥特曼和Fidji Simo组成的领导团队,决定研究团队与应用团队之间的总体算力划分;

    • 研究团队内部协调:首席科学家和研究负责人,决定研究团队资源分配;