全球最大AI超算内部首次曝光!马斯克19天组装10万块H100,未来规模还将扩大一倍

最近,马斯克又宣布了一条振奋人心的消息——集群即将扩展到20万张H100/H200显卡!

同时,ServeTheHome也发布了一条15分钟的视频,公布了这台超算的详情!
这台全球最大的AI超级计算机Colossus位于美国田纳西州孟菲斯,配备了10万个英伟达Hopper GPU,并由英伟达Spectrum-X以太网提供网络传输支持。
目前,Colossus的第一阶段建设已完成,集群全面上线,但这并不是终点。它将很快迎来升级,GPU容量将翻倍,新增5万块H100 GPU和5万块下一代H200 GPU。
Colossus正在用于训练xAI的Grok,并为X Premium订阅用户提供聊天机器人功能。

在训练超大规模的Grok时,Colossus展现了前所未有的网络性能。在网络结构的所有层级中,系统在流量冲突的情况下没有经历任何应用延迟降级或数据包丢失。
通过Spectrum-X拥塞控制,它保持了95%的数据吞吐量。这种性能水平无法通过标准以太网实现,标准以太网在传输中会产生数千次流量冲突,数据吞吐量仅能达到60%。
由于保密协议的限制,这台超级计算机的一些细节并没有透露。不过,像Supermicro GPU服务器等关键部件的介绍在视频中都有所涉及。
液冷机架

Colossus集群的基本构建单元是Supermicro液冷机架。
每个机架包含八台4U服务器,每台服务器配备八个英伟达H100,共计64个GPU。
八台此类GPU服务器再加上一个Supermicro冷却分配单元(CDU)及相关硬件,构成了一个GPU计算机架。
这些机架以八台为一组排列,共512个GPU,并通过网络连接,形成更大系统中的小型集群。

xAI使用的是Supermicro 4U通用GPU系统。
这是目前市面上最先进的AI服务器,有2个原因:其一是它的液冷程度;其二是设备的可维护性。
该系统被放置在托盘上,无需将系统从机架中移出即可维护。1U机架分流器可为每个系统引入冷却液并排出温热液体。快速断开装置让液冷系统可以迅速移除,甚至可以人工单手拆装;移除后,托盘即可拉出以便维护。
下图是一张该服务器原型的照片,展示了这些系统的内部构造。

上图SC23原型中的两个x86 CPU液冷模块相对常见。
特别之处在于右侧:Supermicro的主板集成了几乎所有HGX AI服务器中使用的四个Broadcom PCIe交换机,而非将其单独安装在另一块板上。Supermicro为这四个PCIe交换机设计了定制液冷模块。
其他AI服务器通常是在风冷设计的基础上加装液冷,而Supermicro的设计则完全从零开始,为液冷而打造,且所有组件均来自同一供应商。
打个通俗的比方,这类似于汽车——有些车型先设计为燃油车,之后再安装电动动力系统,而有些车型从一开始就是为电动车设计的。这款Supermicro系统就属于后者,而其他HGX H100系统则属于前者。
Patrick怒赞道:测评了各种各样的液冷系统设计,这款Supermicro系统遥遥领先于其他系统!
网络系统
打个比方,如果1GbE的普通家庭网络好比是一条单车道公路,那这个400GbE就像是一条拥有400车道的高速公路。而每个系统有9条这样的「高速公路」,相当于每台GPU计算服务器拥有9条这样的超宽带公路,总带宽达到3.6Tbps。
这个带宽甚至超过了2021年初顶级Intel Xeon服务器处理器在所有PCIe通道上所能处理的连接总量。
GPU的RDMA网络构成了该带宽的大部分。每个GPU都有自己的NIC。

在这里,xAI使用英伟达BlueField-3 SuperNIC和Spectrum-X网络。英伟达的网络堆栈中加入了一些独特技术,可以帮助数据绕过集群中的瓶颈,确保数据准确地传输到指定位置。
这是一个重大突破!许多超级计算机网络使用的是InfiniBand或其他技术,而这里采用的是以太网。
以太网是互联网的骨干,因此它具有极强的扩展性。这些庞大的AI集群已扩展到一些更小众技术未能触及的规模。对于xAI团队而言,这确实是一个大胆的举措。

除了GPU的RDMA网络外,CPU也配备了400GbE连接,但使用完全不同的交换结构。xAI为其GPU和集群的其余部分分别配置了独立的网络,这在高性能计算集群中是非常常见的设计。
除了高速集群网络外,还有低速网络用于管理接口和环境设备,这些都是此类集群的重要组成部分。
-
极致性价比之选:七号智算8卡5090服务器与推理机深度解析
如果说H200和B200是云端训练的皇冠,那么消费级旗舰显卡则是边缘推理和中小企业微调的利器。随着RTX 50系列显卡的发布,基于Blackwell架构消费版核心的8卡5090服务器迅速成为了市场上的“硬通货”。七号智算紧跟技术前沿,推出了针对该系列显卡的多元化解决方案,涵盖了5090推理机、5090一体机以及相关的技术优化服务。
넶0 2026-05-28 -
算力新纪元:七号智算引领H200、B200、B300算力租赁新潮流
随着人工智能大模型参数量的指数级增长,算力已成为数字经济时代的“新石油”。然而,高昂的硬件成本与快速的技术迭代,让许多企业和开发者望而却步。在此背景下,算力租赁模式应运而生,成为打破算力壁垒的关键钥匙。作为行业内的佼佼者,七号智算凭借敏锐的市场洞察力和强大的资源整合能力,正在重新定义高性能计算资源的获取方式。
넶0 2026-05-28 -
2026 消费级 AI 算力革命,七号智算 8 卡 5090 服务器 / 推理机 / 一体机与 P2P 破解全解析
2026 年,AI 推理需求爆发式增长,消费级高端显卡 RTX 5090 凭借单卡高性能,成为中小规模 AI 部署、模型微调、多模态生成的核心选择。七号智算紧跟市场热点,推出 8 卡 5090 服务器、5090 推理机、5090 一体机全系列产品,并通过 P2P 破解技术突破多卡通信瓶颈,释放消费级算力集群的极致性能,为企业与开发者提供高性价比、灵活部署的 AI 算力方案,推动 AI 技术普惠化发展。当前 RTX 5090 集群在中端推理场景性能接近专业卡,成本仅为数据中心 GPU 的 1/3,七号智算单品矩阵正重塑中小规模 AI 算力市场格局。
넶0 2026-05-27 -
2026 高端算力租赁爆发,七号智算 H200/B200/B300 集群重塑 AI 基础设施
2026 年,AI 产业从模型竞赛转向行业深水区,算力需求呈指数级增长,高端 GPU 供需失衡加剧,算力租赁成为企业降本增效的核心选择。七号智算依托前沿资源布局与技术服务能力,构建 H200、B200、B300 全矩阵算力租赁体系,覆盖从主流推理到超大规模训练的全场景需求,成为驱动 AI 产业落地的核心算力引擎。当前国内高端智算缺口超 35%,H200、B200、B300 租赁市场供不应求,七号智算以稳定供给与定制化服务,破解企业算力焦虑,助力千行百业 AI 转型。
넶1 2026-05-27
