时间:2026年5月3日
地点:美国田纳西州孟菲斯
人物:马斯克旗下人工智能公司xAI、总裁Michael Nicolls
事件详情:据The Information报道,马斯克旗下人工智能公司xAI目前手头约有55万块英伟达GPU(包括H100与H200),但实际利用率仅有11%。这些硬件主要部署在孟菲斯的Colossus超算集群中,采用液冷配置。xAI总裁Michael Nicolls在一份内部备忘录中承认这一数字低得尴尬,并为团队设定了在未来几个月内将利用率拉升至50%的目标。11%的MFU(模型浮点运算利用率)意味着理论上能产生100份训练吞吐量的硬件,实际只产出了11份,大量的电力和硬件时间都消耗在了数据等待、通信开销和重新计算等环节。
背景:xAI在孟菲斯建成的Colossus集群内部目前已扩至20万张GPU,目标是100万张,是公开披露中最大的AI超算之一。马斯克此前曾表示,xAI计划在未来五年内部署相当于5000万个英伟达H100等级的AI GPU,目标是在5年内使xAI的算力总和超过其他所有公司的总和。相比之下,Meta和谷歌的GPU利用率可达43%至46%,显示出xAI在算力效率方面的巨大差距。算力利用率低不仅意味着资源浪费,也影响模型训练速度和成本效益。
影响:
- xAI拥有全球最大规模GPU集群之一,但11%利用率暴露出算力管理效率问题
- 算力利用率低导致训练成本居高不下,影响xAI与OpenAI、Anthropic等竞争对手的竞争
- 目标将利用率提升至50%,需要对训练栈进行全面优化,包括数据管道、通信优化等
- 马斯克xAI在硬件规模上领先,但软件和工程能力需要跟进才能发挥算力价值
- AI算力竞争从硬件规模转向效率优化,算力利用率成为新的竞争焦点
总结:马斯克xAI拥有55万张英伟达GPU的庞大算力资源,但实际利用率仅11%,远低于Meta和谷歌的43%-46%。这一差距暴露了xAI在算力管理和训练效率方面的不足,也影响了其在AI竞争中的实际表现。xAI总裁已设定目标,在未来几个月内将利用率提升至50%,这需要对整个训练栈进行系统性优化。这一事件凸显了AI算力竞争的新趋势:硬件规模只是基础,算力效率才是决定竞争力的关键因素。随着AI模型规模持续增长,如何提升算力利用率将成为所有AI公司面临的核心挑战。
参考来源:
http://finance.sina.com.cn/tech/digi/2026-05-03/doc-inhwrsvc0636561.shtml
http://k.sina.com.cn/article_5953740931_162dee0830670357bq.html
https://k.sina.com.cn/article_7857201856_1d45362c0019051jj6.html
https://new.qq.com/rain/a/20260408A0572G00
https://new.qq.com/rain/a/20251227A022Z400






