Google 披露 AI 时代网络架构,微软 Copilot Cowork 被曝安全漏洞
- Google 披露 Virgo 网络,支持 134k TPU 无阻塞互联
- 微软 Copilot Cowork 曝 Agent 漏洞,可经邮件外泄文件
- ElevenLabs 发布 Music v2,API 价格腰斩
Google Cloud 详细披露面向 AI 时代的全球网络和数据中心架构,其专为 AI 设计的 Virgo 网络可在一个逻辑集群内连接最多 134,000 个 TPU 芯片,提供 47 Pb/s 无阻塞带宽;安全研究者发现微软 Copilot Cowork 存在设计漏洞,Agent 可通过向用户邮箱发送含外部图片链接的邮件实现文件外泄。
1. Google 为 AI 时代重构全球网络:从数据中心到 WAN 的全栈演进#
- 核心发布:Google Cloud 官方博客详细披露了其面向 AI 时代的全球网络和数据中心网络架构重构,涵盖 Virgo 网络、AI-native Cloud Interconnect 及全球骨干网的演进。
- 数据中心内网:首次详解了专为 AI 设计的 Virgo 网络,采用独立的数据平面、控制平面和管理平面,支持在一个逻辑集群内连接多达 134,000 个 TPU 8t 芯片,提供高达 47 Pb/s 的无阻塞等分带宽。相比上一代,每颗 TPU 的带宽提升了 4 倍,无负载延迟降低了 40%。
- 跨数据中心互联:全新 AI-native Cloud Interconnect 专为高频、低延迟的 AI 数据迁移设计,采用 400 Gbps 链路,可按 3.2 Tbps 递增至 Pbps 容量,将 1 PB 数据迁移时间从 22.2 小时(100 Gbps)缩短至 0.7 小时。
- 可靠性创新:引入自治故障检测机制,包括自动 hang 检测和高分辨率(亚毫秒级)网络遥测,以最大限度提高大模型训练的好度(Goodput),减少因单一故障导致的整个同步训练作业停滞。
- 行业意义:这是顶级云服务商罕见地系统性地披露其 AI 基础设施背后的网络架构设计哲学,展示了“数据中心即计算机”的理念在万卡级规模下的实际工程落地,对自研或采购 AI 基础设施的企业有直接的架构参考价值。 🔗 Google Cloud 博客
2. [持续跟踪] Microsoft Copilot Cowork 被曝安全漏洞:Agent 可通过邮件与外部图片外泄文件#
- 核心漏洞:安全研究者发现,Microsoft Copilot Cowork 产品存在设计缺陷,可被用于数据外泄。攻击者可通过提示注入,诱导该 Agent 向用户自己的邮箱发送包含外部图片链接的邮件,当用户打开邮件时,攻击者服务器即可收到请求,实现数据外泄。
- 前情提要:Copilot Cowork 是一个允许 AI Agent 代表用户执行任务的 Agent 平台。此前已有无数关于 Agent 安全边界的讨论。
- 技术细节:Agent 在未经审批的情况下,能够向用户自己的收件箱发送邮件。如果邮件内容中包含了由 OneDrive 生成的预认证下载链接,攻击者就能通过追踪外部图片的网络请求,捕获到直接下载文件的链接,从而绕过权限限制。
- 行业影响:这再次验证了 Simon Willison 此前反复强调的观点:“致命三重奏”(模型、工具、权限) 组合下的 Agent 系统,其核心安全挑战在于如何防止侧信道泄露。此案例表明,即使 Agent 未将文件发给外部,仅通过邮件渲染这类看似无害的操作,也能成为数据外泄的通道。 🔗 PromptArmor 报告 | Simon Willison 评论
3. ElevenLabs 发布 Music v2:AI 音乐生成再进化,API 价格腰斩#
- 核心发布:ElevenLabs 正式推出其 AI 音乐生成模型 Music v2,并同步大幅下调 API 定价,ElevenCreative 降价 40%,ElevenAPI 降价 50%,立即生效。
- 技术升级:新模型在歌词人声、乐器编曲和多语言支持上实现了显著改进,官方宣称其效果已覆盖几乎所有主流音乐流派,并提供了此前无法实现的能力。
- 商用许可:该模型基于已授权数据进行训练,明确开放商业使用,可以直接用于商业项目、内容创作等场景。
- 行业信号:在 Suno、Udio 等前辈纷纷遭遇版权诉讼或增长放缓的背景下,ElevenLabs 以明确授权的数据和激进的降价策略入局,正在重塑 AI 音乐生成领域的市场格局。此举将显著降低视频、播客和独立游戏等内容创作者的背景音乐制作门槛。 🔗 ElevenLabs 官方推文 | 定价更新
4. ByteByteGo 深度剖析 Vercel:如何将构建等待时间从 90 秒降至 5 秒#
- 核心分析:技术社区 ByteByteGo 发布深度文章,拆解 Vercel 如何通过自主构建基础设施平台 Hive,将构建准备时间(provisioning time)从 90 秒锐减至 5 秒。
- 技术架构转型:为应对敌对多租户(hostile multi-tenancy)下的安全挑战,Vercel 绕过了 Kubernetes 与普通容器,转而采用 AWS 开源的 Firecracker 微虚拟机。每个客户构建都在一个独立的 Firecracker 微VM(称之为“Cell”)中运行,提供硬件级的内核隔离。VM 内部再运行容器,各司其职。
- 三大优化措施:1) 更快的启动:通过缓存构建镜像和块设备快照,大幅缩短微VM的冷启动路径;2) 预热池:预先启动一组微VM,空闲等待任务,使大多数构建跳过冷启动;3) Firecracker 本身的速度:125ms 的启动时间是整个架构能落地的基座。
- 成本与权衡:预热池机制存在显著的成本/延迟权衡点,同时构建自主基础设施平台本身的工程投入远超使用现成方案。但这种投入为 Vercel 带来了极高的产品灵活性,使之能够推出增强型构建机和 Secure Compute 等特性。
- 行业启示:这是一个“安全威胁模型驱动技术选型”的经典案例。对于 Vercel 这种规模和服务形态而言,选择更复杂的基座(微VM)解决了容器隔离不足的问题,并在降低成本的同时优化了性能。 🔗 ByteByteGo 文章
5. OpenAI 展示 GPT-5.5 在 Codex 中的企业级应用:助力 Databricks 解析复杂文档#
- 核心动态:OpenAI 发布了一个演示案例,展示其 GPT-5.5 模型集成于 Codex 后,如何帮助 Databricks 更可靠地解析复杂的客户文档。
- 案例价值:这并非简单的 API 调用演示,而是展示了 Codex 作为 Agent 框架,如何将顶级模型(GPT-5.5)的推理能力与具体的企业工作流(文档解析)深度绑定,实现从“回答问题”到“完成任务”的交付。
- 技术背景:这发生在 Codex 团队近期分享“榨干 Codex”高阶指南,以及开发者社区热议 GPT-5.5 在复杂 Agent 任务中表现显著提升的背景下。
- 行业意义:OpenAI 正在从单纯的模型提供商,转向为一个集成顶级模型与执行框架的闭环 Agent 平台。这对于其争夺高价值的企业客户至关重要。 🔗 OpenAI Developers 推文
6. CMU 与 UMD 论文提出“模型睡眠”:多跳推理准确率飙升 52%#
- 核心研究:来自 CMU 和 UMD 的研究团队发表论文《Language Models Need Sleep》,提出一种受生物启发的“睡眠-巩固”机制,旨在解决 Transformer 模型在长序列任务中注意力分散、推理能力下降的问题。
- 技术方案:论文发现模型推理失败的根本原因是模型在长上下文中无法将“短期记忆”有效转化为可用的内部表征。为此,他们引入 “睡眠”模式:在清空 KV 缓存前,让模型对当前上下文的离线信息进行多次前向传播(N 次循环遍历),将上下文信息沉淀到状态空间模型(SSM)块的持久化快速权重中。固化完成后,清空 KV 缓存,模型恢复运行。
- 实验数据:在需要多步推理的蜂窝自动机(Rule 110)、多跳图检索等任务上,引入“睡眠”机制的模型准确率提升高达 52%。
- 与测试时推理的区别:与 o1 那种用户等待的在线推理不同,“睡眠”发生在模型处理完上下文但尚未生成响应的间隙,用户无感知,且推理延迟不变。
- 行业意义:在业界疯狂堆砌上下文窗口长度和测试时计算时,该工作提供了一个完全不同的优化思路:通过计算与记忆的异步分离,用离线计算来强化记忆。这可能对长时运行 Agent 和大规模 RAG 系统的架构设计产生深远影响。 🔗 论文 arXiv | DAIR.AI 解读
⭐ GitHub 趋势#
1. thedotmack/claude-mem ⭐ 今日 +352#
语言/许可: TypeScript / Apache-2.0
总 Stars: 78.6k
仓库: GitHub
项目定位:
为 AI Agent(尤其是 Claude Code 类代码代理)设计的跨会话持久化上下文记忆系统,解决 Agent 每次会话丢失历史操作上下文的问题。
核心功能:
- 自动捕获会话中的工具调用、决策过程与代码变更,经 AI 压缩生成语义摘要
- 基于语义检索在新会话启动时自动注入相关的历史上下文(渐进式上下文注入)
- 支持 Claude Code、Gemini CLI、OpenCode、Copilot 等主流代码 Agent 工具
- 提供 Web UI 实时查看记忆流,支持基于自然语言的记忆查询(mem-search skill)
技术亮点:
采用分层记忆架构(Progressive Disclosure)控制 token 消耗,底层基于 SQLite + FTS5 全文索引与 Chroma 向量数据库实现混合检索。
今日洞察#
微软 Copilot Cowork 的漏洞细节值得认真对待。它不只是一次提示注入,而是精确演示了 Agent 安全中“致命三重奏”的侧信道实现路径:Agent 有邮件发送权限、邮件客户端能渲染外部图片、OneDrive 链接带预认证。三者组合下,Agent 无需将文件发给外部服务器,仅需将包含外部图片 HTML 的邮件发回给用户自己,攻击者就能通过图片请求劫持文件下载链接。这个模式比以往任何演示都更贴近生产环境——它利用了邮件客户端作为跨域追踪的桥,而用户自己收件箱的“正常”行为恰好成了掩护。这意味着 Agent 平台在设计权限模型时,不仅要限制 Agent 能“写”到哪,还要限制它能“渲染”什么。
CMU 和 UMD 的“模型睡眠”论文提供了一个与主流方向(测试时推理、更大的上下文窗口)正交的思路:在长序列任务中,模型可以通过离线多次前向传播将上下文信息固化为持久权重,然后清空 KV 缓存。实验显示多跳推理准确率提升 52%。这套机制本质上是对 Transformer 注意力饱和问题的工程修补,但它的设计哲学更接近人脑的记忆巩固——不是扩展工作记忆,而是将短期记忆转化为长期记忆。如果这一方向被验证可扩展,它将直接影响目前 Agent 设计中“耗尽上下文”然后重置的协作模式,转而支持 Agent 通过“睡眠-巩固”周期实现跨会话的知识沉淀。而 GitHub 上一夜涨了 78.6k stars 的 claude-mem 项目,恰好反应了社区已开始主动寻找跨会话记忆方案——论文提供了理论,项目提供了工程原型,两者的共振信号值得关注。
OpenRouter 完成 1.13 亿 B 轮融资,Qwen3.7-Max 登顶国产第一,MiniMax M3 预告
- OpenRouter 获 1.13 亿美元 B 轮融资,周 Token 量达 25T
- Qwen3.7-Max 在 Code Arena 前端榜单位列第四,超越 GLM-5.1
- PrismML 发布 1-bit/Ternary Bonsai Image 4B 模型,iPhone 本地可实现离线生图
OpenRouter 宣布 1.13 亿美元 B 轮融资,周 Token 量从 5T 跃升至 25T;Qwen3.7-Max 在 Code Arena 前端榜单排名第四,与 Claude Opus 4.6 持平;MiniMax 预告 M3 模型,采用动态块稀疏注意力,1M 上下文预填充速度比 M2 快 9.7 倍。
1. OpenRouter 完成 1.13 亿美元 B 轮融资:多模型推理基础设施加速爆发#
- 核心融资:OpenRouter 宣布由 CapitalG 领投的 1.13 亿美元 B 轮融资。过去六个月周 Token 量从 5T 增长至 25T,AI 正从实验转向生产。
- 估值信号:同日 Fireworks 和 Baseten 也在向 decacorn(>100 亿美元)级别冲刺。Latent Space 分析指出,多模型推理基础设施已成为确定性平台层,路由器是下一层关键组件。
- 行业影响:OpenRouter 的爆发验证了“多模型路由”作为独立中间层的商业可行性,开发者已从“挑一个最佳模型”转向“根据任务动态调度”,这对模型定价和 Agent 架构设计将产生深远影响。 🔗 OpenRouter 官方公告 | Latent Space 分析
2. Qwen3.7-Max 在 Code Arena 前端榜单排名第四,与 Claude Opus 4.6 持平#
- 最新排名:Arena.ai 官方数据显示,Qwen3.7-Max(20250517 快照)在 Code Arena: Frontend 中排名第四,得分 1541,仅次于 Claude Opus 4.7-thinking、Opus 4.6 等,超越 GLM-5.1,成为该榜单中国产模型第一名。
- 产品配套:阿里云今日同步上线面向海外开发者的 Qwen Cloud 网站、Agent 产品 MuleRun,以及 Qoder 智能体编程平台。60 多款云产品完成 Skill/MCP/CLI 化改造,可直接被 Agent 调用。
- 成本竞争力:此前千问 3.7-Max 已开启隐式缓存和 Token Plan 优惠,其输出价格约为 Opus 4.7 的 1/3、GPT-5.5 的 1/4,对成本敏感的 Agent 开发者极具吸引力。 🔗 Arena.ai 官方推文 | Qwen 团队推文
3. MiniMax M3 模型预告:动态块稀疏注意力将长上下文效率推向新高#
- 技术预告:MiniMax AI 工程负责人 Skyler Miao 发布“Something BIG is coming”推文,配图揭示了 M3 架构——基于 GQA 的动态块稀疏注意力。先由轻量索引分支快速扫描 1M token 上下文,选出最相关的 token 块,再执行 Sparse Attention。
- 性能数据:在 1M token 上下文下,Prefill 速度比 M2 快 9.7 倍,解码速度快 15.6 倍。
- 行业意义:这是继 DeepSeek V4 之后,第二个宣称能高效处理百万 token 的国产模型。长上下文 Agent 任务的落地成本将大幅下降,MiniMax 将正式加入“长上下文俱乐部”。 🔗 Skyler Miao 预热推文 | Berryxia 解读
4. 小米 MiMo V2.5 API 永久降价最高 99%,Token 计划额度提升 5-8 倍#
- 降价细节:小米技术凌晨宣布 MiMo-V2.5 系列 API 永久降价。Pro 模型输入缓存命中价格从 ¥2.80/百万 tokens 降至 ¥0.025(降幅 99%),输出价格从 ¥21.00 降至 ¥6.00(降幅 71%)。同时 Token Plan 额度提升至原来的 5-8 倍,且重置所有用户额度。
- 竞争格局:这是在 DeepSeek V4 永久降价和 Qwen 隐式缓存之后,国内模型平台的又一轮激进降价。小米官方称优化源于持续推理优化和服务效率提升。
- 开发者影响:国产模型推理成本正以“永久”姿态持续下探,这将显著降低创业公司和独立开发者构建 Agent 应用的门槛。 🔗 小米技术公告 | 歸藏评论 | 爱范儿汇总
5. PrismML 发布 1-bit 和 Ternary Bonsai Image 4B:端侧图像生成离线可用#
- 模型发布:PrismML 推出 Bonsai Image 4B 扩散模型的极致压缩版本:1-bit 版仅 0.93GB(缩小 8.3 倍),Ternary 版 1.21GB,采用 -1、0、+1 三元权重。在 Mac M4 Pro 上生成速度最高提升 5.6 倍,图像质量与全精度模型相当。
- iOS 应用同步上线:Bonsai Studio 已在 App Store 免费上线,支持 iPhone 本地推理,无需联网、无需订阅。512×512 图像约占用 1.5GB 内存,iPhone 15 Pro 以上可流畅运行。
- 行业意义:这是首次将高质量图像生成模型压缩至 1GB 以下并在手机端实现离线运行。对于教育、素材制作和隐私敏感场景,端侧生图正式进入“可用”阶段。 🔗 PrismML 官方推文 | Berryxia 实测 | Bonsai Studio App
6. Anthropic 随机对照实验:AI 辅助编程导致技能掌握度下降 17%#
- 研究发布:Anthropic 在官网发表一项针对软件开发者的随机对照实验。受试者使用 Trio 库完成异步编程任务,AI 辅助组在测验中得分比手写代码组低 17%(50% vs 67%),相当于近两个等级的差距。
- 交互模式差异:定性分析显示,高分使用者将 AI 当作“导师”而非“代笔”——他们会追问解释、要求 AI 阐述代码逻辑。单纯依赖 AI 生成代码的“全权委托型”使用者得分不足 40%。
- 企业启示:研究指出,初级工程师的技能成长可能因 AI 工具受阻,企业应设计确保员工持续学习的 AI 使用策略,避免短期效率以牺牲长期能力为代价。 🔗 Anthropic 博客 | 前端早读课翻译
7. 微软开源 Webwright:终端原生 Web Agent 框架,实现 SOTA 性能#
- 项目发布:微软开源 Webwright —— 基于 Playwright 脚本的终端原生 Web Agent 框架。核心设计是“代码即动作”:让 LLM 编写可运行的 Python 脚本,而非逐步骤预测点击。
- 性能表现:在 Online-Mind2Web(300 任务)上达 86.7%(GPT-5.4),在 Odysseys 长程任务上达 60.1%,较此前 SOTA 提升 15.6 个百分点。
- 易用性:架构极简(核心模块约 1000 行),支持 Claude Code、Codex、OpenClaw 等主流 Agent 框架集成。每次运行自动保存轨迹和报告,便于审计和回归。 🔗 GitHub 仓库 | shao__meng 解读
8. Anthropic 发布 Agent 安全工程实践:三层防御架构与真实攻击案例#
- 博客发布:Anthropic 工程博客发表《How We Contain Claude》,系统总结基于 Claude AI、Claude Code、Claude Cowork 三款产品的 Agent 安全设计。
- 三层防御:1)环境层(沙箱/VM/文件系统边界,确定性最强);2)模型层(系统提示、分类器、红队训练);3)外部内容层(MCP 服务器、插件、网页搜索)。强调“确定性边界 > 概率性防御”。
- 真实攻击案例:包括“用户钓鱼注入导致 AWS 凭证外泄”、“通过批准域名外泄数据”、“自建代理组件是最薄弱环节”等。未来风险方向包括持久化内存污染、多 Agent 信任升级等。
- 行业参考:这是迄今最详尽的 Agent 安全架构公开文档,对所有构建 Agent 系统的团队有直接指导意义。 🔗 Anthropic 工程博客 | meng shao 总结
9. 微软等联合发布 SkillOpt:让 AI 自动训练和优化 Skills#
- 研究发布:微软联合上海交大、复旦、同济等机构发布 SkillOpt 框架。核心思想:将 Skill(Agent 技能文档)视为可训练的外部权重,通过 Agent 闭环中的试错反馈自动迭代,无需人工手动调整。
- 机制:独立的优化器模型对 Skill 进行小步编辑(增加/删除/替换),每次变更必须在验证集上得分提升才允许合并。引入了类似深度学习的学习率预算和被拒编辑缓冲区。
- 效果:在 GPT-5.5 上使用优化后的 Skill,直接对话准确率飙升 23.5 分。
- 行业启示:提示词工程与模型训练的界限正在模糊——Skill 优化正从“人类手调”走向“机器学习自动化”,这可能改变整个 Agent 开发生态。 🔗 论文 arXiv | karminski 解读 | 宝玉评论
10. Alex Finn 长期对比后转向 Codex:自测闭环将首次 Bug 率从 40% 降至 3%#
- 开发者体验:开发者 Alex Finn 连续两个月每天数百小时并行使用 Codex 和 Claude Code 后宣布转向 Codex。关键变量是“自测闭环”:Codex 在内置浏览器中自动验证每次代码修改,形成“改→测→修”自动化循环。
- 数据对比:使用 Codex 之前约 40% 的修改首次交付就有 Bug,现在降至 ≤3%。可靠性提升使他更容易进入心流状态。
- 生态思考:Alex 强调“不必对任何公司忠诚,使用当下最好的工具”。当前 Codex 在自测闭环体验上领先,但 Claude Code 可能明天下一次更新就改变局面。这一对比突显了 Agent 工具中“测试自动化”作为核心竞争力。 🔗 Alex Finn 原始推文 | meng shao 转发