xAI 和 Anthropic 在 2026 年 5 月 6 日宣布合作:Anthropic 将通过 SpaceX 使用 Colossus 1 数据中心的全部算力,用来提高 Claude Pro 和 Claude Max 的服务容量。

xAI 宣布 Anthropic 使用 Colossus 1

Colossus 1 拥有 22 万张以上 NVIDIA GPU,功率容量超过 300MW,是公开信息里最夸张的 AI 超算集群之一。

而就在Anthropic宣布与xAI合作的前一晚,xAI发出了一则通知:

Grok 4.1 Fast及多款模型将在两周后下线。

xai-abandon grok 4.1

业界纷纷猜测:

xAI要放弃自己的模型了吗?

很多人第一反应:xAI连自己模型的服务都支撑不了,要整个租出去?

Musk 的解释#

Musk 在 X 上的解释大意是:他和 Anthropic 高管见过面,认可对方在 AI 安全上的态度,因此同意把 Colossus 1 租给 Anthropic。

Musk 提到 Colossus 2

关键在后半句:

SpaceX/xAI 已经把训练迁到 Colossus 2 了。

这句话给了 Colossus 1 外租一个完整解释:

  • Colossus 1 已经从 xAI 的最核心训练资源,变成可商业化的成熟产能;
  • Colossus 2 承担 Grok 后续训练;
  • Anthropic 拿到短期急需的算力,xAI 拿到现金流、合作关系和基础设施定价权。

Grok 被放弃了吗?#

事实上xai最近频繁更新了很多功能,比如Computer是今天才爆出的功能:

  • Grok Computer:xAI 正在往 computer use 和 agentic workflow 方向扩展。
  • Grok 4.3:xAI 文档把它作为多数文本、代码和推理工作负载的推荐替代模型;
  • Connectors on Grok Web:Grok 网页版接入 Google Workspace、Notion、GitHub、Linear、SharePoint、Outlook、OneDrive 等工具;
  • Grok Imagine Quality Mode API:图像生成质量模式进入 API,强化真实感、文字渲染和创意控制;

Grok Computer

xAI 在模型下线说明里给出的迁移方向,是把旧模型迁到 grok-4.3grok-4.20-non-reasoninggrok-imagine-image 等新模型,看上去只是一次常规的模型升级。旧模型下线会影响开发者体验,尤其是只有几天迁移窗口的生产系统;但从产品节奏看,这是一次非常激进的模型生命周期管理。

所以,Colossus 1 外租并不代表 Grok 业务停摆。从 xAI 最近的产品动作看,Grok 还在继续推进。更合理的观察点是:Grok 是否能在 Colossus 2 上训练出足够有竞争力的新模型。

Colossus 1 和 Colossus 2数据中心对比#

先说一下AI 算力对比的四层口径:

口径适合回答什么问题局限
GPU / TPU / Trainium 芯片数量直观看规模不同芯片无法逐张等价
H100 等效粗略比较训练资源代际换算依赖假设,误差很大
EFLOPS比较理论峰值算力FP16、BF16、FP8、FP4 混算误差大
GW / MW 电力容量判断数据中心上限-

对比一下 xAI 自己的两座核心数据中心。

维度Colossus 1Colossus 2
状态运行中,租给 Anthropic已上线,仍在扩容
位置Memphis, Tennessee,原 Electrolux 工厂Memphis / Southaven 周边
GPU / 加速器规模22 万+ NVIDIA GPU;常见整理口径约 23 万55 万级 Blackwell 部署;部分报道按 GB200/GB300 节点口径解释,物理 GPU 数可能更高
功率容量Anthropic 官方口径:300MW+;其他报道常见 250-300MW约 1GW 已上线,目标约 1.5GW;部分扩建口径提到 2GW
芯片类型H100、H200、GB200GB200、GB300 为主
当前用途Anthropic 使用,提升 Claude 容量xAI / Grok 训练主力

Colossus 1 芯片包含22 万张以上 NVIDIA GPU,300MW+ 容量:

芯片数量
H100约 15 万
H200约 5 万
GB200约 3 万

Colossus 2 已上线,属于 55 万级 Blackwell 部署,目标功率约 1.5GW。

这些数字到底有多大#

一个非常粗略的量级感:

对象规模口径备注
Colossus 122 万+ NVIDIA GPU,300MW+Anthropic / xAI 官方确认
Colossus 255 万级 Blackwell 部署,约 1-1.5GW已上线,仍在扩容
Colossus 1 + 2约 77 万级加速器部署口径,约 1.3-1.8GW取决于 Colossus 2 的节点 / GPU 解释
Meta35 万 H100,近 60 万 H100 等效Meta 官方 2024 年底目标
AWS Project Rainier近 50 万 Trainium2;Anthropic 已使用超过 100 万 Trainium2AWS / Anthropic 官方口径
OpenAI Stargate美国 10GW 级基础设施承诺;部分海外项目单站 10 万 GPUOpenAI 官方以 GW 和投资额披露,非 GPU 总数
Google TPUv5p 单 Pod 8960 芯片;更大 TPU 总量未公开Google 官方公开的是产品 / Pod 规模,缺少全网总量

美国前沿 AI 公司(xAI、OpenAI、Anthropic、Meta、Google)正在建设 10 万~50 万 GPU 级的单体训练集群,并向 GW(吉瓦)级供电的数据中心演进。xAI 的 Colossus 已达到约 20 万 GPU、300MW 级别,Meta 则公开表示拥有约 35 万 H100 和接近 60 万 H100 等效算力。

对比一下中国的 AI 算力总量,业内普遍认为,中国拥有数十万级 NVIDIA AI GPU 存量,并部署了大量国产 AI 芯片,但真正能够长期集中调度、用于超大规模训练的先进 GPU 集群规模,仍明显小于美国头部 AI 公司正在建设的 10 万~50 万 GPU 级 AI Factory。

当前中美差距的核心在于:

  • 最新 AI 芯片获取能力(H100/H200/GB200 等)
  • 单体训练集群规模
  • 超高带宽互联与软件栈成熟度
  • 一家模型公司长期独占调度的大规模训练资源

中国在“超大规模、连续、集中式 frontier 模型训练”这一层面,仍与美国头部 AI 公司存在差距。

结论#

模型榜单上的差距,往往只是最后显现出来的结果;更早发生的差距,藏在芯片采购、电力审批、机房建设、网络互联和工程调度里。一个国家或一家公司能不能做出下一代模型,越来越取决于它能不能把几十万张卡、GW 级电力和持续试错的工程系统组织起来。

算力不是智能本身,但它正在决定谁拥有反复试错的资格。没有足够大的训练集群,就没有足够密集的实验;没有足够密集的实验,就很难追上前沿模型的迭代速度。