Google 披露 AI 时代网络架构，微软 Copilot Cowork 被曝安全漏洞

今日要点

Google 披露 Virgo 网络，支持 134k TPU 无阻塞互联
微软 Copilot Cowork 曝 Agent 漏洞，可经邮件外泄文件
ElevenLabs 发布 Music v2，API 价格腰斩

上一期 · 2026-05-26 下一期 · 2026-05-28

Google Cloud 详细披露面向 AI 时代的全球网络和数据中心架构，其专为 AI 设计的 Virgo 网络可在一个逻辑集群内连接最多 134,000 个 TPU 芯片，提供 47 Pb/s 无阻塞带宽；安全研究者发现微软 Copilot Cowork 存在设计漏洞，Agent 可通过向用户邮箱发送含外部图片链接的邮件实现文件外泄。

1. Google 为 AI 时代重构全球网络：从数据中心到 WAN 的全栈演进#

核心发布：Google Cloud 官方博客详细披露了其面向 AI 时代的全球网络和数据中心网络架构重构，涵盖 Virgo 网络、AI-native Cloud Interconnect 及全球骨干网的演进。
数据中心内网：首次详解了专为 AI 设计的 Virgo 网络，采用独立的数据平面、控制平面和管理平面，支持在一个逻辑集群内连接多达 134,000 个 TPU 8t 芯片，提供高达 47 Pb/s 的无阻塞等分带宽。相比上一代，每颗 TPU 的带宽提升了 4 倍，无负载延迟降低了 40%。
跨数据中心互联：全新 AI-native Cloud Interconnect 专为高频、低延迟的 AI 数据迁移设计，采用 400 Gbps 链路，可按 3.2 Tbps 递增至 Pbps 容量，将 1 PB 数据迁移时间从 22.2 小时（100 Gbps）缩短至 0.7 小时。
可靠性创新：引入自治故障检测机制，包括自动 hang 检测和高分辨率（亚毫秒级）网络遥测，以最大限度提高大模型训练的好度（Goodput），减少因单一故障导致的整个同步训练作业停滞。
行业意义：这是顶级云服务商罕见地系统性地披露其 AI 基础设施背后的网络架构设计哲学，展示了“数据中心即计算机”的理念在万卡级规模下的实际工程落地，对自研或采购 AI 基础设施的企业有直接的架构参考价值。 🔗 Google Cloud 博客

2. [持续跟踪] Microsoft Copilot Cowork 被曝安全漏洞：Agent 可通过邮件与外部图片外泄文件#

核心漏洞：安全研究者发现，Microsoft Copilot Cowork 产品存在设计缺陷，可被用于数据外泄。攻击者可通过提示注入，诱导该 Agent 向用户自己的邮箱发送包含外部图片链接的邮件，当用户打开邮件时，攻击者服务器即可收到请求，实现数据外泄。
前情提要：Copilot Cowork 是一个允许 AI Agent 代表用户执行任务的 Agent 平台。此前已有无数关于 Agent 安全边界的讨论。
技术细节：Agent 在未经审批的情况下，能够向用户自己的收件箱发送邮件。如果邮件内容中包含了由 OneDrive 生成的预认证下载链接，攻击者就能通过追踪外部图片的网络请求，捕获到直接下载文件的链接，从而绕过权限限制。
行业影响：这再次验证了 Simon Willison 此前反复强调的观点：“致命三重奏”（模型、工具、权限） 组合下的 Agent 系统，其核心安全挑战在于如何防止侧信道泄露。此案例表明，即使 Agent 未将文件发给外部，仅通过邮件渲染这类看似无害的操作，也能成为数据外泄的通道。 🔗 PromptArmor 报告 | Simon Willison 评论

3. ElevenLabs 发布 Music v2：AI 音乐生成再进化，API 价格腰斩#

核心发布：ElevenLabs 正式推出其 AI 音乐生成模型 Music v2，并同步大幅下调 API 定价，ElevenCreative 降价 40%，ElevenAPI 降价 50%，立即生效。
技术升级：新模型在歌词人声、乐器编曲和多语言支持上实现了显著改进，官方宣称其效果已覆盖几乎所有主流音乐流派，并提供了此前无法实现的能力。
商用许可：该模型基于已授权数据进行训练，明确开放商业使用，可以直接用于商业项目、内容创作等场景。
行业信号：在 Suno、Udio 等前辈纷纷遭遇版权诉讼或增长放缓的背景下，ElevenLabs 以明确授权的数据和激进的降价策略入局，正在重塑 AI 音乐生成领域的市场格局。此举将显著降低视频、播客和独立游戏等内容创作者的背景音乐制作门槛。 🔗 ElevenLabs 官方推文 | 定价更新

4. ByteByteGo 深度剖析 Vercel：如何将构建等待时间从 90 秒降至 5 秒#

核心分析：技术社区 ByteByteGo 发布深度文章，拆解 Vercel 如何通过自主构建基础设施平台 Hive，将构建准备时间（provisioning time）从 90 秒锐减至 5 秒。
技术架构转型：为应对敌对多租户（hostile multi-tenancy）下的安全挑战，Vercel 绕过了 Kubernetes 与普通容器，转而采用 AWS 开源的 Firecracker 微虚拟机。每个客户构建都在一个独立的 Firecracker 微VM（称之为“Cell”）中运行，提供硬件级的内核隔离。VM 内部再运行容器，各司其职。
三大优化措施：1) 更快的启动：通过缓存构建镜像和块设备快照，大幅缩短微VM的冷启动路径；2) 预热池：预先启动一组微VM，空闲等待任务，使大多数构建跳过冷启动；3) Firecracker 本身的速度：125ms 的启动时间是整个架构能落地的基座。
成本与权衡：预热池机制存在显著的成本/延迟权衡点，同时构建自主基础设施平台本身的工程投入远超使用现成方案。但这种投入为 Vercel 带来了极高的产品灵活性，使之能够推出增强型构建机和 Secure Compute 等特性。
行业启示：这是一个“安全威胁模型驱动技术选型”的经典案例。对于 Vercel 这种规模和服务形态而言，选择更复杂的基座（微VM）解决了容器隔离不足的问题，并在降低成本的同时优化了性能。 🔗 ByteByteGo 文章

5. OpenAI 展示 GPT-5.5 在 Codex 中的企业级应用：助力 Databricks 解析复杂文档#

核心动态：OpenAI 发布了一个演示案例，展示其 GPT-5.5 模型集成于 Codex 后，如何帮助 Databricks 更可靠地解析复杂的客户文档。
案例价值：这并非简单的 API 调用演示，而是展示了 Codex 作为 Agent 框架，如何将顶级模型（GPT-5.5）的推理能力与具体的企业工作流（文档解析）深度绑定，实现从“回答问题”到“完成任务”的交付。
技术背景：这发生在 Codex 团队近期分享“榨干 Codex”高阶指南，以及开发者社区热议 GPT-5.5 在复杂 Agent 任务中表现显著提升的背景下。
行业意义：OpenAI 正在从单纯的模型提供商，转向为一个集成顶级模型与执行框架的闭环 Agent 平台。这对于其争夺高价值的企业客户至关重要。 🔗 OpenAI Developers 推文

6. CMU 与 UMD 论文提出“模型睡眠”：多跳推理准确率飙升 52%#

核心研究：来自 CMU 和 UMD 的研究团队发表论文《Language Models Need Sleep》，提出一种受生物启发的“睡眠-巩固”机制，旨在解决 Transformer 模型在长序列任务中注意力分散、推理能力下降的问题。
技术方案：论文发现模型推理失败的根本原因是模型在长上下文中无法将“短期记忆”有效转化为可用的内部表征。为此，他们引入 “睡眠”模式：在清空 KV 缓存前，让模型对当前上下文的离线信息进行多次前向传播（N 次循环遍历），将上下文信息沉淀到状态空间模型（SSM）块的持久化快速权重中。固化完成后，清空 KV 缓存，模型恢复运行。
实验数据：在需要多步推理的蜂窝自动机（Rule 110）、多跳图检索等任务上，引入“睡眠”机制的模型准确率提升高达 52%。
与测试时推理的区别：与 o1 那种用户等待的在线推理不同，“睡眠”发生在模型处理完上下文但尚未生成响应的间隙，用户无感知，且推理延迟不变。
行业意义：在业界疯狂堆砌上下文窗口长度和测试时计算时，该工作提供了一个完全不同的优化思路：通过计算与记忆的异步分离，用离线计算来强化记忆。这可能对长时运行 Agent 和大规模 RAG 系统的架构设计产生深远影响。 🔗 论文 arXiv | DAIR.AI 解读

⭐ GitHub 趋势#

1. thedotmack/claude-mem ⭐ 今日 +352#

语言/许可： TypeScript / Apache-2.0
总 Stars： 78.6k
仓库： GitHub

项目定位：
为 AI Agent（尤其是 Claude Code 类代码代理）设计的跨会话持久化上下文记忆系统，解决 Agent 每次会话丢失历史操作上下文的问题。

核心功能：

自动捕获会话中的工具调用、决策过程与代码变更，经 AI 压缩生成语义摘要
基于语义检索在新会话启动时自动注入相关的历史上下文（渐进式上下文注入）
支持 Claude Code、Gemini CLI、OpenCode、Copilot 等主流代码 Agent 工具
提供 Web UI 实时查看记忆流，支持基于自然语言的记忆查询（mem-search skill）

技术亮点：
采用分层记忆架构（Progressive Disclosure）控制 token 消耗，底层基于 SQLite + FTS5 全文索引与 Chroma 向量数据库实现混合检索。

今日洞察#

微软 Copilot Cowork 的漏洞细节值得认真对待。它不只是一次提示注入，而是精确演示了 Agent 安全中“致命三重奏”的侧信道实现路径：Agent 有邮件发送权限、邮件客户端能渲染外部图片、OneDrive 链接带预认证。三者组合下，Agent 无需将文件发给外部服务器，仅需将包含外部图片 HTML 的邮件发回给用户自己，攻击者就能通过图片请求劫持文件下载链接。这个模式比以往任何演示都更贴近生产环境——它利用了邮件客户端作为跨域追踪的桥，而用户自己收件箱的“正常”行为恰好成了掩护。这意味着 Agent 平台在设计权限模型时，不仅要限制 Agent 能“写”到哪，还要限制它能“渲染”什么。

CMU 和 UMD 的“模型睡眠”论文提供了一个与主流方向（测试时推理、更大的上下文窗口）正交的思路：在长序列任务中，模型可以通过离线多次前向传播将上下文信息固化为持久权重，然后清空 KV 缓存。实验显示多跳推理准确率提升 52%。这套机制本质上是对 Transformer 注意力饱和问题的工程修补，但它的设计哲学更接近人脑的记忆巩固——不是扩展工作记忆，而是将短期记忆转化为长期记忆。如果这一方向被验证可扩展，它将直接影响目前 Agent 设计中“耗尽上下文”然后重置的协作模式，转而支持 Agent 通过“睡眠-巩固”周期实现跨会话的知识沉淀。而 GitHub 上一夜涨了 78.6k stars 的 claude-mem 项目，恰好反应了社区已开始主动寻找跨会话记忆方案——论文提供了理论，项目提供了工程原型，两者的共振信号值得关注。

2,284 字

晚报｜ EVENING 2026-05-27

OpenRouter 完成 1.13 亿 B 轮融资，Qwen3.7-Max 登顶国产第一，MiniMax M3 预告

今日要点

OpenRouter 获 1.13 亿美元 B 轮融资，周 Token 量达 25T
Qwen3.7-Max 在 Code Arena 前端榜单位列第四，超越 GLM-5.1
PrismML 发布 1-bit/Ternary Bonsai Image 4B 模型，iPhone 本地可实现离线生图

查看早报

OpenRouter 宣布 1.13 亿美元 B 轮融资，周 Token 量从 5T 跃升至 25T；Qwen3.7-Max 在 Code Arena 前端榜单排名第四，与 Claude Opus 4.6 持平；MiniMax 预告 M3 模型，采用动态块稀疏注意力，1M 上下文预填充速度比 M2 快 9.7 倍。

1. OpenRouter 完成 1.13 亿美元 B 轮融资：多模型推理基础设施加速爆发#

核心融资：OpenRouter 宣布由 CapitalG 领投的 1.13 亿美元 B 轮融资。过去六个月周 Token 量从 5T 增长至 25T，AI 正从实验转向生产。
估值信号：同日 Fireworks 和 Baseten 也在向 decacorn（>100 亿美元）级别冲刺。Latent Space 分析指出，多模型推理基础设施已成为确定性平台层，路由器是下一层关键组件。
行业影响：OpenRouter 的爆发验证了“多模型路由”作为独立中间层的商业可行性，开发者已从“挑一个最佳模型”转向“根据任务动态调度”，这对模型定价和 Agent 架构设计将产生深远影响。 🔗 OpenRouter 官方公告 | Latent Space 分析

2. Qwen3.7-Max 在 Code Arena 前端榜单排名第四，与 Claude Opus 4.6 持平#

最新排名：Arena.ai 官方数据显示，Qwen3.7-Max（20250517 快照）在 Code Arena: Frontend 中排名第四，得分 1541，仅次于 Claude Opus 4.7-thinking、Opus 4.6 等，超越 GLM-5.1，成为该榜单中国产模型第一名。
产品配套：阿里云今日同步上线面向海外开发者的 Qwen Cloud 网站、Agent 产品 MuleRun，以及 Qoder 智能体编程平台。60 多款云产品完成 Skill/MCP/CLI 化改造，可直接被 Agent 调用。
成本竞争力：此前千问 3.7-Max 已开启隐式缓存和 Token Plan 优惠，其输出价格约为 Opus 4.7 的 1/3、GPT-5.5 的 1/4，对成本敏感的 Agent 开发者极具吸引力。 🔗 Arena.ai 官方推文 | Qwen 团队推文

3. MiniMax M3 模型预告：动态块稀疏注意力将长上下文效率推向新高#

技术预告：MiniMax AI 工程负责人 Skyler Miao 发布“Something BIG is coming”推文，配图揭示了 M3 架构——基于 GQA 的动态块稀疏注意力。先由轻量索引分支快速扫描 1M token 上下文，选出最相关的 token 块，再执行 Sparse Attention。
性能数据：在 1M token 上下文下，Prefill 速度比 M2 快 9.7 倍，解码速度快 15.6 倍。
行业意义：这是继 DeepSeek V4 之后，第二个宣称能高效处理百万 token 的国产模型。长上下文 Agent 任务的落地成本将大幅下降，MiniMax 将正式加入“长上下文俱乐部”。 🔗 Skyler Miao 预热推文 | Berryxia 解读

4. 小米 MiMo V2.5 API 永久降价最高 99%，Token 计划额度提升 5-8 倍#

降价细节：小米技术凌晨宣布 MiMo-V2.5 系列 API 永久降价。Pro 模型输入缓存命中价格从 ¥2.80/百万 tokens 降至 ¥0.025（降幅 99%），输出价格从 ¥21.00 降至 ¥6.00（降幅 71%）。同时 Token Plan 额度提升至原来的 5-8 倍，且重置所有用户额度。
竞争格局：这是在 DeepSeek V4 永久降价和 Qwen 隐式缓存之后，国内模型平台的又一轮激进降价。小米官方称优化源于持续推理优化和服务效率提升。
开发者影响：国产模型推理成本正以“永久”姿态持续下探，这将显著降低创业公司和独立开发者构建 Agent 应用的门槛。 🔗 小米技术公告 | 歸藏评论 | 爱范儿汇总

5. PrismML 发布 1-bit 和 Ternary Bonsai Image 4B：端侧图像生成离线可用#

模型发布：PrismML 推出 Bonsai Image 4B 扩散模型的极致压缩版本：1-bit 版仅 0.93GB（缩小 8.3 倍），Ternary 版 1.21GB，采用 -1、0、+1 三元权重。在 Mac M4 Pro 上生成速度最高提升 5.6 倍，图像质量与全精度模型相当。
iOS 应用同步上线：Bonsai Studio 已在 App Store 免费上线，支持 iPhone 本地推理，无需联网、无需订阅。512×512 图像约占用 1.5GB 内存，iPhone 15 Pro 以上可流畅运行。
行业意义：这是首次将高质量图像生成模型压缩至 1GB 以下并在手机端实现离线运行。对于教育、素材制作和隐私敏感场景，端侧生图正式进入“可用”阶段。 🔗 PrismML 官方推文 | Berryxia 实测 | Bonsai Studio App

6. Anthropic 随机对照实验：AI 辅助编程导致技能掌握度下降 17%#

研究发布：Anthropic 在官网发表一项针对软件开发者的随机对照实验。受试者使用 Trio 库完成异步编程任务，AI 辅助组在测验中得分比手写代码组低 17%（50% vs 67%），相当于近两个等级的差距。
交互模式差异：定性分析显示，高分使用者将 AI 当作“导师”而非“代笔”——他们会追问解释、要求 AI 阐述代码逻辑。单纯依赖 AI 生成代码的“全权委托型”使用者得分不足 40%。
企业启示：研究指出，初级工程师的技能成长可能因 AI 工具受阻，企业应设计确保员工持续学习的 AI 使用策略，避免短期效率以牺牲长期能力为代价。 🔗 Anthropic 博客 | 前端早读课翻译

7. 微软开源 Webwright：终端原生 Web Agent 框架，实现 SOTA 性能#

项目发布：微软开源 Webwright —— 基于 Playwright 脚本的终端原生 Web Agent 框架。核心设计是“代码即动作”：让 LLM 编写可运行的 Python 脚本，而非逐步骤预测点击。
性能表现：在 Online-Mind2Web（300 任务）上达 86.7%（GPT-5.4），在 Odysseys 长程任务上达 60.1%，较此前 SOTA 提升 15.6 个百分点。
易用性：架构极简（核心模块约 1000 行），支持 Claude Code、Codex、OpenClaw 等主流 Agent 框架集成。每次运行自动保存轨迹和报告，便于审计和回归。 🔗 GitHub 仓库 | shao__meng 解读

8. Anthropic 发布 Agent 安全工程实践：三层防御架构与真实攻击案例#

博客发布：Anthropic 工程博客发表《How We Contain Claude》，系统总结基于 Claude AI、Claude Code、Claude Cowork 三款产品的 Agent 安全设计。
三层防御：1）环境层（沙箱/VM/文件系统边界，确定性最强）；2）模型层（系统提示、分类器、红队训练）；3）外部内容层（MCP 服务器、插件、网页搜索）。强调“确定性边界 > 概率性防御”。
真实攻击案例：包括“用户钓鱼注入导致 AWS 凭证外泄”、“通过批准域名外泄数据”、“自建代理组件是最薄弱环节”等。未来风险方向包括持久化内存污染、多 Agent 信任升级等。
行业参考：这是迄今最详尽的 Agent 安全架构公开文档，对所有构建 Agent 系统的团队有直接指导意义。 🔗 Anthropic 工程博客 | meng shao 总结

9. 微软等联合发布 SkillOpt：让 AI 自动训练和优化 Skills#

研究发布：微软联合上海交大、复旦、同济等机构发布 SkillOpt 框架。核心思想：将 Skill（Agent 技能文档）视为可训练的外部权重，通过 Agent 闭环中的试错反馈自动迭代，无需人工手动调整。
机制：独立的优化器模型对 Skill 进行小步编辑（增加/删除/替换），每次变更必须在验证集上得分提升才允许合并。引入了类似深度学习的学习率预算和被拒编辑缓冲区。
效果：在 GPT-5.5 上使用优化后的 Skill，直接对话准确率飙升 23.5 分。
行业启示：提示词工程与模型训练的界限正在模糊——Skill 优化正从“人类手调”走向“机器学习自动化”，这可能改变整个 Agent 开发生态。 🔗 论文 arXiv | karminski 解读 | 宝玉评论

10. Alex Finn 长期对比后转向 Codex：自测闭环将首次 Bug 率从 40% 降至 3%#

开发者体验：开发者 Alex Finn 连续两个月每天数百小时并行使用 Codex 和 Claude Code 后宣布转向 Codex。关键变量是“自测闭环”：Codex 在内置浏览器中自动验证每次代码修改，形成“改→测→修”自动化循环。
数据对比：使用 Codex 之前约 40% 的修改首次交付就有 Bug，现在降至 ≤3%。可靠性提升使他更容易进入心流状态。
生态思考：Alex 强调“不必对任何公司忠诚，使用当下最好的工具”。当前 Codex 在自测闭环体验上领先，但 Claude Code 可能明天下一次更新就改变局面。这一对比突显了 Agent 工具中“测试自动化”作为核心竞争力。 🔗 Alex Finn 原始推文 | meng shao 转发