xAI Colossus 1 租给 Anthropic：从 Colossus 1/2 看全球 AI 算力差距

xAI 和 Anthropic 在 2026 年 5 月 6 日宣布合作：Anthropic 将通过 SpaceX 使用 Colossus 1 数据中心的全部算力，用来提高 Claude Pro 和 Claude Max 的服务容量。

Colossus 1 拥有 22 万张以上 NVIDIA GPU，功率容量超过 300MW，是公开信息里最夸张的 AI 超算集群之一。

而就在Anthropic宣布与xAI合作的前一晚，xAI发出了一则通知：

Grok 4.1 Fast及多款模型将在两周后下线。

xai-abandon grok 4.1

业界纷纷猜测：

xAI要放弃自己的模型了吗？

很多人第一反应：xAI连自己模型的服务都支撑不了，要整个租出去？

Musk 的解释#

Musk 在 X 上的解释大意是：他和 Anthropic 高管见过面，认可对方在 AI 安全上的态度，因此同意把 Colossus 1 租给 Anthropic。

Musk 提到 Colossus 2

关键在后半句：

SpaceX/xAI 已经把训练迁到 Colossus 2 了。

这句话给了 Colossus 1 外租一个完整解释：

Colossus 1 已经从 xAI 的最核心训练资源，变成可商业化的成熟产能；
Colossus 2 承担 Grok 后续训练；
Anthropic 拿到短期急需的算力，xAI 拿到现金流、合作关系和基础设施定价权。

Grok 被放弃了吗？#

事实上xai最近频繁更新了很多功能，比如Computer是今天才爆出的功能:

Grok Computer：xAI 正在往 computer use 和 agentic workflow 方向扩展。
Grok 4.3：xAI 文档把它作为多数文本、代码和推理工作负载的推荐替代模型；
Connectors on Grok Web：Grok 网页版接入 Google Workspace、Notion、GitHub、Linear、SharePoint、Outlook、OneDrive 等工具；
Grok Imagine Quality Mode API：图像生成质量模式进入 API，强化真实感、文字渲染和创意控制；

Grok Computer

xAI 在模型下线说明里给出的迁移方向，是把旧模型迁到 grok-4.3、grok-4.20-non-reasoning 和 grok-imagine-image 等新模型，看上去只是一次常规的模型升级。旧模型下线会影响开发者体验，尤其是只有几天迁移窗口的生产系统；但从产品节奏看，这是一次非常激进的模型生命周期管理。

所以，Colossus 1 外租并不代表 Grok 业务停摆。从 xAI 最近的产品动作看，Grok 还在继续推进。更合理的观察点是：Grok 是否能在 Colossus 2 上训练出足够有竞争力的新模型。

Colossus 1 和 Colossus 2数据中心对比#

先说一下AI 算力对比的四层口径：

口径	适合回答什么问题	局限
GPU / TPU / Trainium 芯片数量	直观看规模	不同芯片无法逐张等价
H100 等效	粗略比较训练资源代际	换算依赖假设，误差很大
EFLOPS	比较理论峰值算力	FP16、BF16、FP8、FP4 混算误差大
GW / MW 电力容量	判断数据中心上限	-

对比一下 xAI 自己的两座核心数据中心。

维度	Colossus 1	Colossus 2
状态	运行中，租给 Anthropic	已上线，仍在扩容
位置	Memphis, Tennessee，原 Electrolux 工厂	Memphis / Southaven 周边
GPU / 加速器规模	22 万+ NVIDIA GPU；常见整理口径约 23 万	55 万级 Blackwell 部署；部分报道按 GB200/GB300 节点口径解释，物理 GPU 数可能更高
功率容量	Anthropic 官方口径：300MW+；其他报道常见 250-300MW	约 1GW 已上线，目标约 1.5GW；部分扩建口径提到 2GW
芯片类型	H100、H200、GB200	GB200、GB300 为主
当前用途	Anthropic 使用，提升 Claude 容量	xAI / Grok 训练主力

Colossus 1 芯片包含22 万张以上 NVIDIA GPU，300MW+ 容量：

芯片	数量
H100	约 15 万
H200	约 5 万
GB200	约 3 万

Colossus 2 已上线，属于 55 万级 Blackwell 部署，目标功率约 1.5GW。

这些数字到底有多大#

一个非常粗略的量级感：

对象	规模口径	备注
Colossus 1	22 万+ NVIDIA GPU，300MW+	Anthropic / xAI 官方确认
Colossus 2	55 万级 Blackwell 部署，约 1-1.5GW	已上线，仍在扩容
Colossus 1 + 2	约 77 万级加速器部署口径，约 1.3-1.8GW	取决于 Colossus 2 的节点 / GPU 解释
Meta	35 万 H100，近 60 万 H100 等效	Meta 官方 2024 年底目标
AWS Project Rainier	近 50 万 Trainium2；Anthropic 已使用超过 100 万 Trainium2	AWS / Anthropic 官方口径
OpenAI Stargate	美国 10GW 级基础设施承诺；部分海外项目单站 10 万 GPU	OpenAI 官方以 GW 和投资额披露，非 GPU 总数
Google TPU	v5p 单 Pod 8960 芯片；更大 TPU 总量未公开	Google 官方公开的是产品 / Pod 规模，缺少全网总量

美国前沿 AI 公司（xAI、OpenAI、Anthropic、Meta、Google）正在建设 10 万～50 万 GPU 级的单体训练集群，并向 GW（吉瓦）级供电的数据中心演进。xAI 的 Colossus 已达到约 20 万 GPU、300MW 级别，Meta 则公开表示拥有约 35 万 H100 和接近 60 万 H100 等效算力。

对比一下中国的 AI 算力总量，业内普遍认为，中国拥有数十万级 NVIDIA AI GPU 存量，并部署了大量国产 AI 芯片，但真正能够长期集中调度、用于超大规模训练的先进 GPU 集群规模，仍明显小于美国头部 AI 公司正在建设的 10 万～50 万 GPU 级 AI Factory。

当前中美差距的核心在于：

最新 AI 芯片获取能力（H100/H200/GB200 等）
单体训练集群规模
超高带宽互联与软件栈成熟度
一家模型公司长期独占调度的大规模训练资源

中国在“超大规模、连续、集中式 frontier 模型训练”这一层面，仍与美国头部 AI 公司存在差距。

结论#

模型榜单上的差距，往往只是最后显现出来的结果；更早发生的差距，藏在芯片采购、电力审批、机房建设、网络互联和工程调度里。一个国家或一家公司能不能做出下一代模型，越来越取决于它能不能把几十万张卡、GW 级电力和持续试错的工程系统组织起来。

算力不是智能本身，但它正在决定谁拥有反复试错的资格。没有足够大的训练集群，就没有足够密集的实验；没有足够密集的实验，就很难追上前沿模型的迭代速度。