4,938 字

早报｜ MORNING 2026-06-13

MiniMax M3 开源上线，Fable 5 安全机制 5 秒被突破

今日要点

MiniMax M3 开源上线，428B 参数获十余家平台 day-0 支持
复旦团队利用 ISC 方法 5 秒突破 Fable 5 安全分类器
Meta 大幅削减对 Anthropic 的 token 预算

上一期 · 2026-06-12 下一期 · 2026-06-14

MiniMax 今日在 Hugging Face 正式开源 M3 模型权重（428B 总参数，23B 激活），获得 vLLM、NVIDIA、Fireworks AI 等十余家平台 day-0 支持，许可证向小企业开放；同时，复旦与多校联合团队宣布利用内部安全坍塌方法，在 5 秒内绕过 Claude Fable 5 的安全分类器；Meta 据报正大幅削减对 Anthropic 的 token 订阅预算。

title: “MiniMax M3 开源权重上线，Claude Fable 5 安全被5秒攻破” lead: “MiniMax M3 开源权重在 Hugging Face 正式上线，获 vLLM、NVIDIA、Fireworks AI 等多家平台 day-0 支持，许可证调整为小企业免费；复旦与多校联合团队 5 秒内突破 Claude Fable 5 安全分类器；Meta 被曝大幅削减对 Anthropic 的 token 订阅预算；Google 推出 Gemini 3.5 Live Translate API 及本周多产品更新。” highlights:

“MiniMax M3 开源权重上线，1M 上下文 + 多模态 + 428B 参数，许可证向小企业开放”
“复旦团队 5 秒突破 Fable 5 安全分类器，揭示智能体长程任务内部安全坍塌”
“Meta 削减对 Anthropic 的 token 预算，企业 AI 支出从 ‘tokenmaxxing’ 转向严格管控”

1️⃣ MiniMax M3 开源权重上线：428B 参数、1M 上下文，获 vLLM/NVIDIA/Fireworks 等 day-0 支持#

核心发布：MiniMax 于北京时间今日凌晨正式在 Hugging Face 开源其前沿级 MoE 模型 MiniMax M3 的完整权重（~428B 总参数，~23B 激活参数，60 层）。同时发布 MSA（MiniMax Sparse Attention）技术论文。
生态反应：获得 vLLM、SGLang、NVIDIA AI、Fireworks AI、Modular、Unsloth、Poe、Baseten、Telnyx、Factory AI Droid 等十余家平台和框架的 day-0 支持。vLLM 提供专用 MSA 预填充/解码内核与 1M 上下文服务；NVIDIA 提供免费 GPU 加速端点。
许可证调整：针对此前 M2.7 商业使用需预审批的批评，M3 许可证大幅放宽：非商业完全免费；年营收低于 2000 万美元的个体/公司仅需邮件告知并标注 “Build with MiniMax”；更高营收企业联系获取商业许可。
性能亮点：SWE-Bench Pro 59.0%，Terminal Bench 2.1 66.0%，MCP Atlas 74.2%，原生多模态（文本/图像/视频），MSA 稀疏注意力带来 9 倍预填充加速和 15 倍解码加速。 🔗 MiniMax 官方推文 | Hugging Face 权重 | MSA 论文 | 许可证说明 | vLLM 博客 | NVIDIA AI 推文

2️⃣ [持续跟踪] Claude Fable 5 安全防线被华人团队 5 秒攻破，Meta 大幅削减对 Anthropic 的 token 预算#

前情提要：Anthropic 于 6 月 10 日发布 Claude Fable 5，其前置安全分类器被设计为在涉及网络安全、生物化学等高风险领域时拒绝或降级到 Opus 4.8。
最新突破：复旦大学、迪肯大学等国际联合团队宣布，利用一种名为“内部安全坍塌 (ISC)”的方法，在 5 秒内绕过 Fable 5 的安全分类器，成功诱导模型生成违规内容。该方法并非传统提示注入，而是利用 Agent 在长程任务中“认真完成任务”时自行推导出不安全结论。该研究早在 3 月便已发布，证明 Fable 5 并非孤例。同时，根据 The Information 报道，Meta 正在大幅削减其对 Anthropic 的 token 预算，由之前的高额支出转向严格管控，标志着企业 AI 支出从“tokenmaxxing”进入理性收缩期。
行业意义：安全分类器对瞬时显性风险有效，但在 Agent 多步执行链条中，安全风险可以从内部涌现。Fable 5 的安全事件与企业客户预算收紧叠加，暗示前沿模型的高昂成本与合规复杂性正促使头部企业重新评估投入节奏。 🔗 机器之心报道（Fable 5 破解） | 论文链接 | Amir Efrati 推文（Meta 预算削减） | Gary Marcus 推文

3️⃣ Google 发布 Gemini 3.5 Live Translate 及本周多产品更新#

核心发布：Google AI 今日通过 Gemini Live API 正式推出 Gemini 3.5 Live Translate，一个低延迟语音到语音翻译模型，支持 70+ 语言、2000+ 语言对，保留语调与节奏，可用于实时广播翻译等场景。开发者可通过 Gemini Live API 调用。
本周更新汇总：同时，Google AI 官方公布了本周多个产品更新：NotebookLM 获得 Agentic 能力升级、Project Genie 面向 Google AI Ultra 5x 订阅用户开放、Gemini 笔记本在 EEA/UK/瑞士上线、以及最新实验性开源文本扩散模型 DiffusionGemma 的发布。
行业意义：单个模型覆盖 2000+ 语言对的低延迟语音翻译，将显著降低跨语言实时内容消费的门槛。同时，Google 本周密集更新显示其产品矩阵正从单一模型向“模型+服务+Agent 环境”全栈进化。 🔗 Google AI 推文（本周总结） | Gemini 3.5 Live Translate 演示 | AI Studio 试用

4️⃣ OpenAI 开发者文档 Agent 正式上线#

核心发布：OpenAI Developers 今日正式在 developers.openai.com 上线新的文档 Agent。用户可以用自然语言询问关于 OpenAI 产品的问题，Agent 能直接引导用户找到相关文档页面，并可生成定制指南，支持导出为 Markdown 或在 Codex 中打开。
实测反馈：OpenAI 联合创始人 Greg Brockman 转发表扬，称其为“强大而酷炫的网站导航方式，让交互更直观”。
行业意义：这是 OpenAI 将其 Agent 能力直接用于开发者体验的典型示例，本质上是将官网文档变成了一个可交互的 Agent 工作流入口，可能会成为未来所有 API 文档的标准范式。 🔗 OpenAIDevs 推文 | Greg Brockman 推文

5️⃣ [持续跟踪] Cognition 推出 1000 万美元“AI 生产力保证”，量化 Devin 工程价值#

前情提要：Cognition 上周宣布推出 AI 生产力保证。
最新突破：今日，Cognition 详细公开了其计算方法、基准测试和保证机制。该保证为“德文能交付工程价值”提供 1000 万美元承诺，通过一系列标准化任务衡量 AI 编码代理的实际产出。
行业意义：这是首个由 AI 代理公司提出的带有财务承诺的量化生产力保证。它将 AI 编码从“工具”推向“付费结果”模式，可能改变企业采购 AI 编码代理的决策逻辑——从“每月付费”转向“为实际交付的工程价值付费”。 🔗 Cognition 官方推文 | Ryan Bai 解释文章

6️⃣ GitHub Copilot CLI 更智能地委派子代理：工具失败率降低 23%#

核心发布：GitHub 博客详细介绍了 Copilot CLI 最新改进：更智能的子代理委派。通过 LLM 分析完整 Agent 轨迹，识别出不必要的委派（如简单任务动用子代理、重复搜索等），并优化委派策略。在 A/B 测试中，工具失败率降低 23%，搜索工具失败率降低 27%，用户等待时间在 P95 降低 5%。
实践意义：在 Agent 系统中，委派并非免费——每个切换增加协调开销。Copilot CLI 证明了让主代理更“自信”地处理简单任务、仅在真正需要时委派，能显著提升可靠性。这为所有 Agent 编排设计提供了参考。
可用性：更新已全量上线（CLI 版本 1.0.42+），用户只需运行 /update 即可。 🔗 GitHub Blog | GitHub 官方推文

7️⃣ Vercel 发布 HarnessAgent：统一抽象，整合 Claude Code、Codex、Pi 等 Agent 大脑#

核心发布：Vercel 联合创始人 Guillermo Rauch 宣布 AI SDK 新增 HarnessAgent，一个统一抽象层。开发者可以用同一套 API 调用 Claude Code、Codex、Pi 等不同 Agent Harness，实现跨 Agent 的编排与集成。
使用方法：const agent = new HarnessAgent({ harness: claudeCode, sandbox: createVercelSandbox() }); 支持沙箱化会话和 AI SDK 兼容流式输出。
行业意义：随着编码 Agent 格局由多家主导，切换 Agent Harness 的成本越来越高。HarnessAgent 旨在解耦“模型大脑”和“应用逻辑”，将 Harness 层面的可移植性问题一次性解决。这可能成为 Agent 时代的 Ansible/Terraform——一个全能的 Agent 编排层。 🔗 Guillermo Rauch 推文 | Vercel Changelog

8️⃣ Google Research 发布 Gemini-SQL2：BIRD 文本到 SQL 基准 SOTA#

核心发布：Google Research 推出 Gemini-SQL2，在业界公认极具挑战性的 BIRD 基准上，将自然语言转化为可执行 SQL 查询的能力达到 SOTA。由 Gemini 3.1 Pro 驱动。
行业意义：文本到 SQL 看似成熟，但真实世界数据混乱复杂。Gemini-SQL2 证明了在复杂推理模型与领域定制模型结合时才能突破现有瓶颈。这对于企业 BI Agent 和数据中台智能化具有直接价值。 🔗 Google Research 推文 | elvis 评论

⭐ GitHub 趋势#

今日无显著 AI 相关趋势

分析说明：
候选列表中无符合 AI 关注领域的项目：

LMCache/LMCache 虽为优秀的 AI Infra 项目（KV Cache 管理层），但当日增量仅 +28，未达到趋势简报的“日增长显著”阈值，因此不纳入。
music-assistant/server、iptv-org/iptv、microsoft/PowerToys 均与 AI/LLM 工作负载无关，按排除规则跳过。

🟧 Hacker News 热议#

How to setup a local coding agent on macOS#

226 pts · 68 comments · site

📌 内容总结

作者想在没有网络的情况下，在 Mac 上本地运行一个编码代理。目标是速度快到可用、提供 OpenAI 兼容 API、且支持多模态（截图）。
最终方案：llama.cpp（Metal 加速）+ Gemma 4 26B-A4B Q4 模型 + Q8 MTP 草案模型进行推测解码 + Pi 作为终端编码代理。
基准测试显示，在 M1 Max 64GB 上，MTP 将生成速度从 58.2 tok/s 提升至 72.2 tok/s（约 1.24x）。作者也测试了 Qwen3.6 35B-A3B，速度较慢（55 tok/s）但编码能力可能更好。
HN 关注点:
- MTP 配置对实际速度的提升效果，以及短基准（128 tokens）的可靠性问题
- 不同工具链（llama.cpp vs MLX vs Ollama / LM Studio）的性能比较
- 本地模型的实际可用性（vs 托管模型）

💬 讨论总结

共识观点
- MTP 推测解码值得尝试，但最优 --spec-draft-n-max 值取决于硬件，需要自行测试。
- llama.cpp 在 macOS 上比 MLX 更快（至少在 Gemma 4 这个模型上），与一些用户的预期相反。
质疑 / 反对
- 128 token 基准太短，不能代表真实性能。 多个高赞评论指出，MTP 在早期 token 的接受率更高，推测解码的加速效果在长序列中会打折扣。需要更长的 prefill（如系统提示 >1000 tokens）和更长的生成序列才能有效评估。
- 本地模型仍远不如托管模型。 一位 M5 Max 128GB 用户称本地模型“只是玩具”，无法达到托管模型一半的效果。但也有用户对 16GB M3 上的本地模型感到满意（作为离线备用方案）。
工程经验
- llama.cpp 现已支持 -hf 参数直接下载 Hugging Face 模型，无需手动调用 huggingface-cli。
- 多位用户分享了更便捷的替代方案，如 lm-studio、ollama + opencode/pi、或 omlx（提供了更简化的配置和 UI）。
- 一位用户提到 Gemma 4 的 MTP 头在 OpenCode 中偶尔会破坏标记，导致显示混乱或无法输出停止符，因此在生产环境中关掉了 MTP。

🔗 原文 · HN 讨论页

Slightly reducing the sloppiness of AI generated front end#

157 pts · 107 comments · site

📌 内容总结

作者没有审美能力，发现 AI 生成的前端界面总是带有一股“松散感”（slop），即便指定了某个风格（如 X 风格），也只是“带松散感的 X 风格”。
尝试让 AI 模仿 Qt 应用风格后，发现“松散感”基本消失了。
作者展示了一个选举地图应用的不同风格版本（原始、Qt、HIG、Win11、SaaS 等），并认为 Qt 版本明显优于其他。
HN 关注点:
- “AI 松散”的根源是什么
- 是否有其他能避免松散感的风格或设计系统
- 如何量化（或客观评价）UI 质量

💬 讨论总结

共识观点
- “AI 松散”本质上是“Web 松散”的放大，而非 AI 独有问题。 许多评论认为，自放弃桌面范式转向 Web 以来，UI 就一直在失去一致性。AI 只是加速了这种趋势。
- Qt 风格之所以有效，是因为它在训练数据中是高度一致的“命名分布”。 模型有大量 Qt 教程、截图、源码可以作为参考，因此能生成更连贯、不平均化所有 Web 风格的输出。
支持观点
- 要求模型使用现有的设计系统（如 MUI、Tailwind）或指定一个严格的设计系统可以显著减少松散感。
- 指定 macOS HIG、Windows 11 或 Win9x 风格也能获得类似的效果。总结：越是具体、有严格规则的风格，AI 输出越好。
质疑 / 反对
- 结果是主观的。 多位评论者表示所有版本（包括 Qt）看起来都很丑或松散。一位用户认为“原始”版本反而是最好的。
- “松散”无法量化。 有评论指出这篇文章完全是主观感受，没有客观依据衡量哪个设计“更好”。
- 使用 Claude 的 frontend-design 插件的用户反馈两极分化。 一些人说效果不错，另一些人则认为是“设计版的‘这是 slop（英文）’”。
工程经验
- 使用 “Tailwind，且纯用 utility class，避免自定义 CSS class” 可以让 LLM 生成更一致的 UI，因为它为模型提供了一个语义层来推理样式。
- 有评论推荐使用 Diffusion 模型先生成 UI 图片，再让 LLM 根据图片生成代码，这种“先有视觉规划再施工”的方式可以比直接让 LLM 编代码得到更好的结果。
历史背景
- 一位评论者指出这让人想起 csszengarden.com——同一个 HTML，不同 CSS 可以产生风格迥异的页面。有人提议做一个 LLM 版。

🔗 原文 · HN 讨论页

Launch HN: BitBoard (YC P25) – Analytics Workspace for Agents#

34 pts · 19 comments · site

📌 内容总结

作者想做什么: 提供一个数据分析和仪表盘工作台，让用户通过 AI 工具（Claude / ChatGPT / Cursor）生成并可复用的仪表盘，而非一次性聊天对话。
解决的问题:
- 聊天记录中的分析逻辑（查询、代码）无法保留和共享
- AI 缺乏业务上下文，导致错误推论
技术实现: 通过 MCP 连接数据源（SQL、Snowflake、PostHog 等），支持手动数据推送，查询和代码可追溯和重新运行。
产品设计: 强调可追溯性、团队协作、与主流 AI Agent 工具深度集成。
HN 反馈焦点: 产品差异化 / 数据源连接方式 / 定价（免费试用，未公开定价） / 仅 Google OAuth 登录的限制

💬 讨论总结

共识观点
- 概念广受认可，有真实痛点。 多位评论者表示自己也有类似想法或需求，认为将一时一事的聊天分析转化为持久的、可复用的资产是一个被忽视的问题。
对产品定位的讨论
- 与 ChatGPT Canvas / Anthropic Artifacts 的竞争关系。 创始人回应强调：Artifacts 更适合静态的白板式探索，而 BitBoard 面向需要持续更新、有严格数据源和可追溯性要求的报告场景。
- 是否应专注于垂直行业。 评论者建议专注于医疗等垂直领域，创始人回应称虽然垂直获客，但底层通用原语（查询、权限、缓存、刷新语义）是复用且跨行业的。
技术细节
- 为什么使用 DuckDB 而不是 CockroachDB/Snowflake? 创始人回应：内部使用 DuckDB 因为 ergonomics 好，灵活且内存友好，但兼容 Snowflake/Databricks 等数据源。
- 如何连接数据源？ 回答：支持 SQL DB、数据仓库、文件存储、MCP/API 源（PostHog, Salesforce），支持凭证托管和直接数据投递。
用户反馈焦点
- 仅支持 Google OAuth 登录是障碍。 多位评论者询问是否有其他方式，创始团队表示正在集成其他登录方式。

🔗 原文 · HN 讨论页

今日洞察#

MiniMax M3 今日开源，它的信号不在参数量和榜单分数上，而在许可证调整和性能工程配套的深度。M3 将商业免费门槛设为年营收 2000 万美元以下的合规通知制，同时 vLLM 为其写入专用 MSA 稀疏注意力内核——一个开源模型同时获得这种级别的推理层定制优化，在 Llama 和 Qwen 之外极为少见。这意味着 MiniMax 的策略从“展示模型”转向“经营生态”：降价至接近免费的开源许可 + 第三方 Infra 的深度集成，让 M3 成为企业可以在生产线上直接跑的前沿模型。这对依赖云 API 的中间层公司是利好——一个可持久部署、不按 token 计价的 1M 上下文模型，会改变很多 RAG/Agent 的架构选择。

Fable 5 的安全分类器 5 秒被破，暴露的是更根本的局限。复旦团队的方法不是提示注入，而是让 Agent 在长程任务中“自然推导”出违规结论——安全分类器只防御单次请求的显性风险，但在多步推理链条中，风险可以从内部涌现。这不是打个补丁能解决的问题。当一个 Agent 需要自主完成分解、检索、推理、工具调用，它在每一步都产生新的离散逻辑，每一步都可能向违规方向累积偏移，而分类器无法实时重新扫描中间状态。这意味着越强大的 Agent（长上下文、多工具），其安全控制越依赖于限制行为空间（白名单工具、静态规划），而非事后分类。Fable 5 的安全叙事与实际工程护栏之间存在明显的错位。

Meta 削减 Anthropic token 预算的消息，给这轮“企业 AI 支出进入理性期”的叙事提供了具体数据点。从“tokenmaxxing”（模型有多大用多大）转向严格管控，不是能力问题，是成本可见性带来的自然收敛。当 LLM 支出可以具体到每个 Token 和每个用户会话，CFO 必然开始做 ROI 映射。这会加速几个趋势：企业内部部署开源模型（M3 的许可证调整恰好承接）、Agent 从“无限制上下文”转向固定预算上下文、以及以结果而非算力计价的计费模式（Cognition 今天的 1000 万生产力保证是典型回应）。Meta 的决策不是孤例，它是企业级 AI 采购的先行指标。

2,265 字

晚报｜ EVENING 2026-06-13

🌙 AI Daily 晚报 | 2026-06-13

查看早报

title: “美国政府指令下线Fable 5与Mythos 5，Kimi K2.7-Code开源” lead: “美国政府以国家安全为由，对Anthropic下达出口管制指令，迫使全球暂停Fable 5与Mythos 5访问；Moonshot AI 开源并发布Kimi K2.7-Code，推理Token节省30%；MiniMax M3 在Together AI上线，推理吞吐量提升125%。” highlights:

“美国政府禁令迫使Anthropic全球下线Fable 5与Mythos 5”
“Moonshot AI 开源Kimi K2.7-Code，降低30%推理Token消耗”
“MiniMax M3 登陆Together AI，推理吞吐量提升125%“

1️⃣ [持续跟踪] Anthropic 遭美国政府出口管制，Fable 5 与 Mythos 5 全球应急下线#

前情提要：Anthropic 于6月9日发布其首款Mythos级模型Claude Fable 5以及无限制版本Mythos 5，发布仅3天即获Agent Arena等多个基准测试榜首，社区实测涌现大量惊艳案例。
最新突破：美国政府以国家安全为由，发布出口管制指令，要求暂停所有外国公民对Fable 5和Mythos 5的访问权限，包括Anthropic的外籍员工。由于无法单独过滤外籍用户，Anthropic被迫对全球所有用户紧急下线两款模型。公司声明表示这出于“误解”，正在争取恢复。Cognition、Genspark、Arena等平台已相继移除模型，Anthropic随后为所有用户重置了5小时和周使用额度。
各方反应：Replit CEO Amjad Masad 表示准备关闭Fable访问；Gary Marcus批评该禁令过于夸张且“反生产力”，可能反而利好中国；多位业内人士称这是“主权AI”风险的开端，依赖单一供应商的模型服务已被证明有地缘政治风险。
行业意义：这是美国政府首次对已公开发布的前沿AI模型行使“事后管制”，为AI行业的模型供应和访问稳定性投下巨大阴影，或将永久改变企业采购和部署AI模型的策略。 🔗 Anthropic 声明 | Simon Willison 转述 | Cognition 声明 | Gary Marcus 评论

2️⃣ Moonshot AI 开源 Kimi K2.7-Code：遏制“过度思考”，Agent 任务成功率大涨#

核心发布：Moonshot AI 正式发布并开源其最新的编程模型Kimi K2.7-Code。该模型在K2.6基础上，核心解决了编码Agent中的“过度思考”问题，实现了更高效的推理。
性能提升：相比K2.6，K2.7-Code在各项基准上大幅提升：Kimi Code Bench v2涨21.8%、MLS Bench Lite涨31.5%。更重要的是，在长程Agent任务中，平均推理Token消耗降低了30%，指令跟随与端到端成功率显著提高。
生态支持：模型权重与代码已开源至Hugging Face，并已获得Ollama、Fireworks AI、Poe等平台首日支持。Ollama云端使用NVIDIA B300 GPU部署，Fireworks提供标准和高优先级两种定价。
行业意义：在模型能力“堆料”已到一定程度的当下，K2.7-Code证明了专注推理效率优化，即在“想得少但干得好”的路径上，同样能带来巨大的性能红利和成本优势，为Agent开发提供了更具性价比的选择。 🔗 Kimi.ai 官方公告 | Fireworks AI 支持 | Ollama 支持

3️⃣ MiniMax M3 生态铺开：Together AI 上线，vLLM 原生支持#

核心发布：继昨日开源权重后，MiniMax M3 的生态系统迅速铺开。官方宣布与Together AI达成合作，M3已在Together平台上线，推理优化后吞吐量提升高达125%。
基础设施建设：vLLM项目为M3提供了Day-0支持，包括为其独特的MiniMax Sparse Attention(MSA)设计专用内核，已通过NVIDIA和AMD硬件验证。Fireworks AI等平台也已同步上线。
性能亮点：M3为原生多模态模型，支持1M上下文，具备顶级编码和Agentic能力。其MSA稀疏注意力架构是实现长上下文实际服务的关键。
行业意义：M3的开源与迅速铺开表明，开放模型社区与商业推理基础设施的协同效率已达到新高度。其“Day-0”全面支持，给开发者提供了明确的、可替代闭源模型的强大选择。 🔗 MiniMax AI 合作公告 | vLLM 支持详解 | Fireworks AI 上线

4️⃣ 纽约总检察长传唤 OpenAI，要求提供广告、儿童安全及模型谄媚等文件#

核心事件：据《华尔街日报》报道，纽约总检察长向OpenAI发出一份范围极广的传票，要求提供与公司活动及用户影响相关的文件。范围包括广告、用户参与度和留存、消费者数据处理、未成年人及老年人相关活动、深度学习模型、模型谄媚以及公司政策。
行业意义：此举标志着监管机构对AI行业，特别是头部公司的商业模式和潜在危害的审查正在急剧升级。这是继Anthropic被政府出口管制后，美国AI监管“双管齐下”的又一重大信号，将直接影响到OpenAI的IPO进程。 🔗 Gary Marcus 转述

5️⃣ Prometheus：Jeff Bezos 参与的实体AI公司完成120亿美元融资#

核心事件：据CNBC报道，由Jeff Bezos参与创立的实体AI初创公司Prometheus，以410亿美元估值完成了高达120亿美元的融资。公司目标是打造“人工通用工程师”，用AI自动化复杂物理系统的设计与制造，领域覆盖喷气发动机到药物化合物。
行业意义：这是目前实体AI领域最大规模的单笔融资之一，证明了资本对将AI能力从数字空间向物理世界迁移的巨大信心。继大语言模型之后，实体AI正成为科技巨头和顶级风投争夺的新价值高地。 🔗 AI Will 推文

6️⃣ [持续跟踪] Fable 5 生态：用户实测报告与“编排者”共识#

前情提要：Claude Fable 5 在上周发布后，引发大量社区实测，其“主动型”和“长时间运行”能力备受关注。
最新突破：用户实测进一步总结出针对Fable 5的“编排者”模式：设定高目标，让Fable做规划，并利用子Agent执行具体任务。部分用户分享了惊人成本（单次任务达$350）和极致效果（从物理原理推导预测日食）。实验对比显示，Fable 5在20次训练迭代中的优化效果是Opus 4.7的6倍。不过，随着模型下线，这些探索暂时中断。
行业意义：这些实测为开发者如何利用“超级模型”提供了宝贵的经验，尤其突出了其在复杂、多步骤、跨Session任务上的颠覆性潜力，也再次证明了“设计环境让模型自我纠错”比写长Prompt更有效。 🔗 Berryxia.AI 译文分享 | Fable 5 vs Deep^2 成本对比 | Fable 5 Memory 机制

7️⃣ WebMCP 标准提案：Chrome 开启源体验，让 AI Agent 可靠操作网页#

核心发布：Google宣布，WebMCP标准提案已进入Chrome 149的源体验阶段。该标准允许网站向浏览器内AI Agent暴露工具（如JavaScript函数和HTML表单），使Agent能模拟用户操作，替代昂贵且不可靠的屏幕读取或DOM抓取。
行业意义：这是将AI Agent无缝集成到Web浏览体验的关键基础设施。它让网页从一个被动的信息源，变为一个可被AI主动调用和操作的“应用平台”，将为下一代Web Agent奠定基础。 🔗 InfoQ 报道

8️⃣ Aether AI 提出因果世界模型：让AI从“知道是什么”到“知道为什么”#

核心观点：Aether AI创始人黄碧薇教授指出，当前AI主要是学习“相关性”（如“手靠近杯子，杯子常常会动”），而非“因果性”（为什么动）。下一代的AI分野在于因果世界模型，它能让机器人成功率提升25-50%，同时将样本需求降低5-10倍。
行业意义：在大模型极致追求规模与相关性的当下，因果推断作为一种更本质的智能范式，正在被重新审视。尤其在机器人、自动驾驶等安全攸关的物理世界应用中，理解因果机制是AI从“可用”走向“可靠”的关键一步。 🔗 Berryxia.AI 转述