美东时间2月17日晚,马斯克旗下xAI宣布Grok3大模型完成训练,其依托的20万GPU集群“Colossus”仅用214天建成,其中首期10万H100芯片部署仅耗时122天,二期扩容更是压缩至92天。这相当于完成了传统IDC厂商需要18个月的基础设施建设。
一个字:快!
“要判断哪家公司会在技术竞争中胜出,只需要关注其创新速度的一阶导数和二阶导数。”马斯克在社交媒体上这句充满数学隐喻的宣言,恰如其分地诠释了Grok3背后的算力基建逻辑。
显然,如今的AI产业,“地球第一聪明”这个称号必然风水轮流转。但毫无疑问的,Grok3把智算中心的快速交付要求提升到了全新的水平。
根据算力权威媒体中国IDC圈的不完全统计,过去一年中,我国智算中心平均交付周期大约1年左右。在统计到的69个已交付项目中,仅有25%项目建设时间在159天以内,有50% 项目(中位数)建设时间288天以内,约75%项目建设时间仅小于589天(约1.6年),最长项目周期高达3261天。(详情参考:600+智算项目450+未投产,DeepSeek对IDC产业9大冲击|算力产业核心内刊2025 No.1)
激进的丰碑
Colossus智算集群
与传统供应商“交钥匙工程”模式不同,xAI选择了一条更激进的路径:
边用边建:首期10万H100集群先行投产,在模型训练过程中同步推进二期5万H100+5万H200扩容,实现“边训练边基建”的并行开发。首期集群专注于模型预训练,二期扩容时同步引入H200芯片进行混合精度优化。这种动态调整能力,使其在92天扩容期内仍保持日均1.5%的模型性能提升。
在传统数据中心中,这种策略也很常见。比如一期投产时,二期在建等,极端点一楼投产、二楼在建。但Colossus集群不同在于,第一批10万卡与第二批20万卡相当于共同运行同一个任务,而不是互相分离的一、二期关系。这毫无疑问的大大提升了建设效率,但对如何解决稳定性与可用性也提出了前所未有的挑战。
此外,在电力攻击方面。Colossus集群建设速度远超孟菲斯当地电力供给能力。马斯克并没有消极等待,而是自己准备了14台超级发电机为数据中心前期供电以保障运行。其后,与孟菲斯电力局签订的150MW供电协议中,创新性引入特斯拉Megapack储能系统。当电网负荷过高时,储能设备可提供峰值功率补偿,这种“削峰填谷”设计使数据中心PUE(能源使用效率)降至1.08,较行业均值优化23%。
软硬协同:xAI工程师透露,他们在服务器上电前30天就完成了Groq LPU编译器适配,使得H100芯片的矩阵计算单元利用率稳定在98.7%。相比之下,某竞品厂商同期部署的H100集群利用率仅徘徊在72%左右。
据悉,xAI联合戴尔定制搭载液冷系统的PowerEdge XE9640服务器,单机柜功率密度提升至45kW,较行业平均水平高出60%。更值得关注的是其网络架构——采用400Gbps BlueField-3 SuperNIC组网,使得单服务器带宽达到3.6Tbps。
这种“暴力堆料”带来的效率提升立竿见影:在AIME2025数学竞赛测试中,Grok3以93分碾压DeepSeek R1的75分,其生成《俄罗斯方块》与《宝石消消乐》融合游戏代码的演示,更是让观众直呼“AI开始抢程序员的饭碗了”。
通过这些手段,马斯克成功的建立这一座超级智算集群百日交付的建设丰碑。毫无疑问,当智算中心建设周期进入以“月”,甚至“周”为单位的倒计时,整个算力产业都不得不同时进入快速交付的未来战场。
【AI算力产业讨论社群|仅限受邀加入】
席位锁定中:AI算力领域TOP级从业者专属圈层
√ 与头部算力企业深度对话
√ 获取一手全球AI与算力产业信息
√ 获取AI算力产业独家信息
√ 随时了解智算中心项目动态
√ 有机会参与主题AI与算力产业交流活动
扫码验证身份(需备注姓名/公司/职务)
注:每满200人关闭入口
不止是 DeepSeek,更是 AI 算力产业的未来!