5,166 字

早报｜ MORNING 2026-06-10

Anthropic 发布 Claude Fable 5，Google 推出 Gemini 3.5 Live Translate

今日要点

Anthropic 发布 Claude Fable 5，基准 SOTA，生态广泛集成
Google 推出 Gemini 3.5 Live Translate，70+ 语言实时语音翻译
Cohere 开源 3B 参数编码模型 North Mini Code，Apache 2.0

上一期 · 2026-06-09 下一期 · 2026-06-11

Anthropic 今日正式发布 Claude Fable 5，定价 $10/$50 每百万 token，集成 Cursor、Devin 等数十家平台，基准全面 SOTA，但安全降级与 30 天数据保留政策引发 HN 热议；Google DeepMind 推出 Gemini 3.5 Live Translate 公开预览，支持 70+ 语言实时语音翻译；Cohere 开源 3B 激活参数 MoE 编码模型 North Mini Code，Apache 2.0 许可。

title: “Claude Fable 5 全面发布，Gemini 3.5 Live Translate 上线，Cohere 开源 North Mini Code” lead: “Anthropic 今日正式发布 Claude Fable 5（Mythos 级安全版），定价 $10/$ 50 每百万 token，已集成 Cursor、Devin、Notion、GitHub Copilot 等数十家平台；Google 推出 Gemini 3.5 Live Translate 公开预览，支持 70+ 语言实时语音翻译；Cohere 开源 3B 激活参数编码模型 North Mini Code，Apache 2.0 协议。” highlights:

“Anthropic 发布 Claude Fable 5，基准 SOTA，生态广泛集成”
“Google Gemini 3.5 Live Translate 公开预览，支持 70+ 语言实时语音翻译”
“Cohere 开源 3B 参数编码模型 North Mini Code，Apache 2.0”

1️⃣ Claude Fable 5 正式发布：Mythos 级安全模型，基准全面 SOTA#

核心发布：Anthropic 发布 Claude Fable 5，这是首个面向公众开放的 Mythos 级模型，能力超过此前任何公开模型。Mythos 5 作为无限制版本仅限 Glasswing 合作伙伴。Fable 5 定价 $10/$ 50 每百万输入/输出 token，是 Opus 4.8 的两倍，但远低于 Mythos Preview。
安全机制：在网络安全、生物化学、前沿 LLM 研发等领域自动降级至 Opus 4.8（约 5% 对话），且对 LLM 研发的降级为静默干预（不影响普通编码）。
生态集成：发布首日即获 Cursor（CursorBench 72.9% SOTA）、Devin（FrontierCode 第一）、Notion、Bolt、v0、Lovable、Replit、Google Cloud、GitHub Copilot、OpenRouter 等数十家平台集成。
能力展示：Stripe 用其一天内完成 5000 万行 Ruby 全库迁移（原需团队两个月）；零额外工具通关 Pokémon FireRed；药物设计 9/14 靶点成功。 🔗 Anthropic 博客 | API 文档 | Karpathy 评价 | Simon Willison 实测

2️⃣ Gemini 3.5 Live Translate：70+ 语言实时语音翻译公开预览#

核心发布：Google DeepMind 发布 Gemini 3.5 Live Translate，一个低延迟语音到语音翻译模型，支持 70+ 语言、2000+ 语言对，自动语言检测，保留语调、节奏和音高，抗噪能力出色。
可用性：今天起在 Google Translate（iOS/Android）、Gemini API（公开预览）、Google Meet（私人预览）可用。已在 AI Studio 开放体验，提供 Colab 入门和 GitHub 示例。
行业意义：以单个模型直接处理 2000+ 语言对，在实时场景中同时保证自然度和低延迟，是语音翻译领域的重要里程碑。 🔗 Google DeepMind 博客 | API 文档 | Jeff Dean 推文

3️⃣ Cohere 开源 North Mini Code：3B 激活参数的编码模型#

核心发布：Cohere 发布 North Mini Code，30B 总参数、3B 激活参数的 MoE 编码模型，采用 Apache 2.0 许可。在 Artificial Analysis Coding Index 上得 33.4 分，可本地运行，专为 agentic coding 场景设计。
定位：对比同体量模型具有竞争力，且完全开源可修改，开发者可自由实验和部署，弥补了开源小模型在编码 Agent 领域的空白。
行业意义：Anthropic 闭源模型 $10/$ 50 定价下，开源小模型为预算敏感团队提供了可替换方案，推动编码 Agent 的普惠化。 🔗 Cohere 博客 | Cohere 推文

4️⃣ Google GKE Inference Gateway：前缀缓存带来 92% 更快 AI 推理响应#

核心发布：Google Cloud 发布独立基准，GKE Inference Gateway 通过前缀缓存和模型感知路由，在 Llama 3.1 8B 共享前缀工作负载上，首 Token 时间（TTFT）缩短 92.8%，吞吐量提升 15.7%，Token 间延迟降低 62.6%。
应用案例：Snap 报告使用 llm-d 实现了 75-80% 的前缀缓存命中率；适用于 RAG 文档问答和多轮聊天场景。
行业意义：Kubernetes 推理网关的优化使企业无需额外硬件即可显著提升推理效率，尤其对共享前缀场景是直接利好。 🔗 Google Cloud 博客

5️⃣ Salesforce 从 20,000 企业 Agent 部署中获得的五大教训#

核心洞察：ByteByteGo 文章总结 Salesforce Agentforce 落地经验：启动后 90% 工作在于迭代；避免过度依赖 LLM 推理（用确定性代码替代）、不要用提示词强化编码策略（用结构化策略替代）、做好上下文工程（精简 API 响应）。
关键数据：Agentforce 支持代理已处理超 300 万对话；KPI 绑定业务指标（如“包含率”）；反馈循环分四个类别（语气品牌、逻辑错误、数据质量、覆盖缺口）。
行业意义：当 20,000 名企业客户的生产经验集中在单一平台上，其总结的工程原则（如优先编码确定性逻辑、精简上下文）对任何企业 Agent 开发团队都有直接参考价值。 🔗 ByteByteGo 文章

6️⃣ a16z 合伙人论 AI 成本如何改写 SaaS 逻辑#

核心观点：前 a16z 合伙人 Benedict Evans 在最新对话中指出：Agentic coding 已从“有点用”变成“改变一切”；模型能力像基础设施（类比 AWS），价值会向上移动；AI 进入行业需先找到具体流程的自动化点，而非泛泛的“降本”。
关键比喻：工程师用 LLM 改造自身工作（类似 PC 早期被用来造计算机）；成本下降后会催生以前太贵没人尝试的供给（类比 Spotify 包月制改写音乐产业）。
行业意义：当模型层趋于商品化，差异化回归到行业数据、流程、信任和交付。SaaS 创业者需要思考如何将 AI 嵌入工作流，而非仅仅调用 API。 🔗 英文对话原文 | 中文解读（晚点听）

7️⃣ OpenRouter Agent SDK 支持 EU AI Act 合规：人类在环与审计跟踪#

核心更新：OpenRouter 发布 Agent SDK 新版本，内置对人类在环（Human-in-the-Loop）支持，可暂停高敏感工具调用等待人工复审，同时提供完整审计记录以应对 EU AI Act 2026 年 8 月生效的合规要求。
技术特点：支持暂停执行、状态持久化、schema 校验、生成式调用恢复。与 Cursor、Claude Code、Grok Build 等兼容。
行业意义：当 AI 监管明确要求“人类门控机制”时，这是首个以 SDK 形态提供标准化合规方案的 Agent 基础设施。 🔗 OpenRouter 推文 | 博客

8️⃣ LlamaIndex 发布 Granular Bounding Boxes：单词级文档溯源审计#

核心发布：LlamaIndex 在 LlamaParse 中新增细粒度边界框（Granular Bounding Boxes），可提取文档中每个单词、行、表格单元格的精确坐标，使 AI 提取的每个数据点都能追溯到原始文档的具体位置。
价值：适用于合规审计、财务审查等需要“证明来源”的场景，相比传统段落级引用大幅提升可验证性。
行业意义：Agent 越来越多地处理企业文档，但“可审计性”一直是瓶颈。此功能为 Agent 提取的信息提供了完整的可追溯链。 🔗 LlamaIndex 推文 | 博客

9️⃣ SpatialWorld：多模态 Agent 交互式空间推理新基准#

核心发布：来自多所高校与企业的联合团队发布 SpatialWorld，一个用于评估多模态 Agent 在实际任务中交互式空间推理能力的基准。涵盖多种真实世界场景。
定位：填补了现有基准对 Agent 在 3D 空间中持续交互、推理能力的评估空白，为具身智能和 Agent 导航提供标准化测试集。
行业意义：随着 Agent 跨出文本/2D 界面向物理世界演进，需要新的评估体系衡量其在空间中的动态推理能力。 🔗 AK 推文 | 论文链接

⭐ GitHub 趋势#

📊 类别速览

项目	类别	Stars
addyosani/agent-skills	AI Agent	49.8k
maziyarpanahi/openmed	模型/推理	1.9k

1. addyosmani/agent-skills ⭐ 今日 +443#

语言/许可： Shell / MIT
总 Stars： 49.8k
仓库： GitHub

项目定位：
面向 AI 编码代理（Claude Code、Cursor、Gemini CLI 等）的开发规范集合，用于规范代理在软件开发全生命周期中的行为和产出，使代理的输出符合生产级工程标准。

核心功能：

提供 /spec、/plan、/build、/test、/review、/ship 等 7 个顶级命令，分别对应开发流程中的各阶段
内含 23 个结构化的 Markdown 技能文件（如 spec-driven-development、incremental-implementation），每个 skill 包含步骤、验证门和反理性化（anti-rationalization）检查表
适配 Claude Code、Cursor、Gemini CLI、Windsurf、OpenCode 等主流编码代理，通过 AGENTS.md 或 .cursor/rules/ 等机制集成
interview-me skill 以一问一答方式迭代澄清模糊需求，直到达到约 95% 置信度

技术亮点：
所有技能以纯 Markdown 格式组织，不绑定特定代理框架；每个 skill 包含明确的验证门（verification gates）和反理性化表，强制代理在执行前自查，而非盲目“生成代码”。

2. maziyarpanahi/openmed ⭐ 今日 +191#

语言/许可： Python / Apache-2.0
总 Stars： 1.9k
仓库： GitHub

项目定位：
面向医疗开发者的本地优先（local-first）医疗 AI 工具，用于在本地设备上执行临床实体提取与 PII 去标识化，无需云 API，支持离线部署。

核心功能：

提供 analyze_text() 单行 API，支持疾病、药物、解剖部位等 1000+ 专用医疗 NER 模型
实时识别并脱敏 18 种 HIPAA Safe Harbor 标识符（姓名、SSN、地址、日期等），支持格式保持（format-preserving fake）
支持 Python API、REST 服务、批量处理三种运行模式，可在 CPU、CUDA、Apple MLX 上运行
提供原生 Swift Package（OpenMedKit），可在 iPhone/iPad/macOS 上完全离线运行

技术亮点：
在 Apple Silicon 上使用 MLX 后端推理，比 CPU PyTorch 快 24-33 倍；模型名称跨平台一致——MLX 模型名在非 Apple 硬件上自动回退到匹配的 PyTorch checkpoint。

🟧 Hacker News 热议#

Claude Fable 5 / Claude Mythos 5#

1781 pts · 1400 comments · anthropic.com

📌 内容总结

Anthropic 发布两款新模型：Fable 5（面向大众）和 Mythos 5（仅限受信任的防御/研究合作伙伴），两者共享相同权重，但 Fable 5 内置了分类器安全护栏。
当请求被判定涉及网络安全、生物/化学或模型蒸馏时，Fable 5 自动回退到 Opus 4.8；大约 <5% 的会话触发此回退。
定价：输入 $10/M tokens，输出$ 50/M tokens，约为 Opus 4.8 的两倍。订阅用户仅在 6 月 22 日前免费包含 Fable 5，之后需消耗使用积分。
基准测试表现突出：SWE-bench Verified 95.5%，FrontierCode xhigh 29.3%（对比 Opus 4.8 的 13.4%），Humanity’s Last Exam 64.5%，并可通过纯视觉通关 Pokémon FireRed。
对于 Mythos 级模型，Anthropic 要求保留 30 天全部流量数据用于安全分析，不用于训练。
系统卡长达 319 页；METR 评估认为该模型不太可能可靠地自动化需要数周的前沿研发项目。

💬 讨论总结

共识：能力跃升真实但代价高昂
- 多数评论承认 Fable 5 在编码基准（SWE-bench、FrontierCode）上有可测量的巨大提升；早期用户（Stripe、Cursor、GitHub）的证言与严格测试一致。
- 但价格翻倍，且订阅用户仅在有限窗口内可用，引发对 Anthropic 商业策略（推动按用量付费、为 IPO 造势）的普遍不信任。
对安全护栏的争议
- 支持者：Anthropic 的 safegaurds 在内部红队和外部赏金中尚未找到通用越狱方法（英国 AISI 接近但未成功）；防御恶意使用是必要的。
- 质疑者：护栏过于保守，如 GPU 驱动调试、UV 指数询问等无害请求被错误拦截；“使用 Claude 开发竞品”也被定义为不安全，并在用户不知情时降级模型能力——这被认为是控制性而非安全性的限制。
- 对比：有人指出“Mythos 很危险”的说法可能是营销——Fable 与 Mythos 权重相同，只是少了护栏，足见 Anthropic 实际可以安全地提供全部能力。
数据保留政策的反冲
- 30 天强制保留所有 Mythos 级流量（包括 API 和第三方通道），且“几乎在所有情况下”30 天后删除——这一条款使许多组织（受 HIPAA 等合规约束）无法使用。
- 保留数据可被法院命令或其他机构获取（参照 NY Times v. OpenAI 先例）。
工程经验和现实约束
- Pelican SVG 测试：Simon Willison 对比测试显示 Fable 5 在所有思考级别下均优于 Opus 4.8，但输出 token 数量巨大（最高 14,430 tokens，72 美分）。
- 实际 agentic 编码中，SWE-bench 的孤立任务表现不一定转化为长流程工作——模型往往在复杂循环中丢失目标。
- “Mythos 级”训练集群规模估计为 ~10T 参数、专属房间级系统；中国实验室可能在未来 3-5 个月通过蒸馏获得类似能力，但缺少同样规模的推理基础设施。

🔗 原文 · HN 讨论页

OpenCV 5 Is Here: The Biggest Leap in Years for Computer Vision#

695 pts · 122 comments · opencv.org

📌 内容总结

OpenCV 5.0 正式发布，核心变化是全新 DNN 引擎：ONNX 算子覆盖率从 4.x 的约 22% 提升至 80%+，支持动态形状、控制流子图（If/Loop）、量化感知（QDQ）、注意力融合（FlashAttention 风格）。
新引擎为 CPU-only（经典引擎仍用于 CUDA/OpenVINO 后端），但引入三引擎设计（Classic / New / ONNX Runtime），通过 ENGINE_AUTO 自动切换。
新特性：原生 LLM/VLM 支持（Qwen2.5、Gemma3、PaliGemma 等）——内置 tokenizer 和 KV-cache；现代特征匹配（ALIKED、DISK、LightGlue）；FP16/BF16/0D/1D 张量；C++17 最低标准；Python NumPy 2.x 支持。
硬件加速层（HAL）重构：Intel IPP、Arm KleidiCV、Qualcomm FastCV、RISC-V RVV 等可即插即用；Universal Intrinsics 2.0 使 ARM 常见操作提速 3-4x。
3D 视觉模块拆分（3d/calib/stereo），新增多相机标定、TSDF 融合、USAC 鲁棒估计框架。
pip 包于 6 月 8 日发布，CVPR 2026 期间同步。

💬 讨论总结

共识：OpenCV 5 是重要但并非革命性的更新
- 多数用户认可新 DNN 引擎带来的 ONNX 覆盖提升和实际性能改进（实测 YOLOv8m 从 255ms 降至 185ms）。
- 但也普遍认为标题“最大的飞跃”稍有夸张——“更多是赶上现代世界，而非开辟新纪元”。
对新 DNN 引擎的质疑
- 最大争议：新引擎 CPU-only。对比 ONNX Runtime 的整数倍性能优势被很多人认为“不公平”——实际生产环境中会使用 GPU/TensorRT，而非 CPU 推理。OpenCV 5 的“VS ONNX Runtime”基准被批评为只选择 CPU 场景。
- 对 LLM/VLM 支持持保留态度：Qwen 2.5 / GPT-2 等模型老旧，OpenCV 不会取代专用 LLM 推理栈——但作为 vision pipeline 中的轻量后处理（如 caption、OCR）有意义。
传统 vs. 深度学习方案之争
- 部分评论认为 OpenCV 的 YOLO 等方法已过时，应该直接使用 VLM（如 Nano Banana、SAM3）解决大部分 CV 任务。
- 反驳者指出：边缘设备（SBC、工业相机）要求毫秒级响应，无法运行大型生成模型；传统 CV 方法在速度、资源占用上仍有不可替代的价值。
实用经验和吐槽
- OpenCV 文件加载（gamma、色彩深度）被批评为“cr**p”；专利算法（SIFT 等）商业使用受限；API 版本间不兼容长期困扰开发人员。
- 有用户怀念 OpenCV 作为“教育性、可拆解”库的价值——可以从源码中提取特定滤波器为自己所用。
- 部分评论指出发布帖本身“像 AI 写的”——清晰但缺乏人情味。

🔗 原文 · HN 讨论页

Is Grep All You Need? How Agent Harnesses Reshape Agentic Search#

124 pts · 53 comments · arxiv.org

📌 内容总结

论文在 LongMemEval（长对话问答）基准上，比较了 grep 与向量检索在 agent 循环中的表现。测试了四种 agent harness（Chronos、Claude Code、Codex、Gemini CLI）和两种工具结果呈现方式（内联 vs. 文件）。
核心发现：grep 在几乎所有 harness 和呈现方式下准确率高于向量检索，但总体分数高度依赖于 harness 和工具调用风格——同一数据集下不同 harness 差异显著。
实验 2 表明，当无关噪声（无关对话历史）增加时，向量检索的性能下降快于 grep。
注意：基准任务偏向字面量匹配（日期、数字、偏好等），这类答案在 grep 的精确匹配下能稳定召回。

💬 讨论总结

共识：结果有实践价值，但论文标题和结论被过度简化
- 多数评论指出 LongMemEval 的“字面证据”特性天然有利于 grep——向量检索在语义等价/泛化场景（如“古典音乐”匹配“贝多芬奏鸣曲”）才显优势。
- “Is Grep All You Need”被调侃为经典的 ML 论文标题套路；真实答案应该是“同时使用 grep 和向量搜索，让 agent 自行判断”。
工程经验与反对意见
- 有人分享经验：组合正则过滤 + 语义排序（如 ColGREP、BM25+vector）在代码搜索中实际效果最好；给 agent 所有工具（grep、hybrid search、LSP）让它自己选比“X vs Y”更务实。
- 批评：论文未与 BM25、Typesense、MeiliSearch 等混合检索方法比较，也未说明使用的嵌入模型/重排器——这些细节对结论的可迁移性至关重要。
- 另一质疑：文中使用的“Chronos” harness 显著优于 Claude Code/Codex，但作者未解释原因——可能是因为 Chronos 更擅长利用 grep 的多步迭代能力。
局限性与现实约束
- 代码搜索经验表明，grep 有效的前提是代码/内容已被社会工程式组织（一致的命名、逻辑放置）；若内容混乱，grep 会快速失效。
- 对于超过 100k 文件的代码库，grep + agent 的 token 消耗巨大，BM25/ES 等索引系统在工程上更可行（Direct Corpus Interaction 论文有数据）。
- 有评论指出 Copilot 在 Visual Studio 中仍主要用 grep 而非 Roslyn 符号数据库——这可能是训练数据偏差（Python 为主）或跨平台通用性驱动的产物。

🔗 原文 · HN 讨论页

今日洞察#

今日素材中最值得关注的变化并非某个模型的能力跃升，而是 Agent 开发的效率瓶颈正在从“模型能力”转向“工作流与行为规范”。

三个独立信号指向同一方向。第一，GitHub 上 addyosmani/agent-skills 项目今日获得 +443 stars，总星数接近 50k。该项目提供 23 个纯 Markdown 技能文件，为 Claude Code、Cursor 等编码代理定义 spec-driven development、增量实现等流程，内含验证门和反理性化检查表——强制代理在生成代码前先自查。这不是工具，而是行为规范。第二，Salesforce 从 20,000 个企业 Agent 部署中总结出：90% 的工作在启动后迭代，且应优先用确定性代码替代 LLM 推理，避免过度依赖模型。第三，今天 Arxiv 上的论文“Is Grep All You Need?”显示，在长文本检索任务中 grep 的准确率在所有 Agent harness 下都高于向量检索，但分数高度依赖 harness 设计（Chronos vs Claude Code 差异显著）。这意味着 Agent 的检索能力瓶颈不在模型理解，而在工具编排与上下文管理方式。

二阶影响：当模型能力普遍达到“够用”水平（Fable 5 的 SWE-bench 95.5% 已远超多数开发者），Agent 的实用价值将由工程纪律决定——如何定义 Agent 的 action space、何时使用确定性逻辑、如何设计验证循环。未来 Agent 平台的竞争核心不再是模型评分，而是 Agent 行为控制框架的健壮性。谁能让 Agent 从“黑箱生成”转向“可审计、可迭代的执行流”，谁就能在开发者生态中建立类似 Kubernetes 的控制平面地位。

2,117 字

晚报｜ EVENING 2026-06-10

🌙 AI Daily 晚报 | 2026-06-10

查看早报

title: “Fable 5 实测碾压与静默限制争议，Cohere 开源北迷代码，OpenAI 内部称 Chat 已死” lead: “Claude Fable 5 发布首日：Karpathy 称大版本跃升，Victor Taelin 获 1770% 加速并发现隐藏 bug，但安全降级与对 LLM 研发的静默干预引发争议；Cohere 发布 30B MoE 开源编码模型 North Mini Code；OpenAI 员工对 FT 称“Chat is dead”，ChatGPT 正改版为整合 Codex 与 Agent 的超级 App。” highlights:

“Claude Fable 5 发布首日实测爆发：1770% 优化、纯视觉通关宝可梦，但静默限制引批评”
“Cohere 开源 North Mini Code：30B MoE 编码模型，3B 激活，专为 Agent 编程设计”
“OpenAI 内部称 ‘Chat is dead’，ChatGPT 改版为超级 App 整合 Codex 与第三方应用”

1️⃣ [持续跟踪] Claude Fable 5 发布首日：能力飞跃与安全争议并行#

前情提要：Anthropic 昨日发布 Claude Fable 5，首个公众可用 Mythos 级模型，定价 $10/$ 50 每百万 token，6 月 22 日前包含在订阅中。
最新突破：
- 实测案例爆发：Karpathy 称这“是大版本级别的步进变化”，任务越长优势越大；Victor Taelin 用其优化 HVM5，2 小时获 1770% 加速，并自主发现作者代码中隐藏的 bug；纯视觉通关宝可梦火红；一句 Prompt 生成可玩《我的世界》；Stripe 用其一天完成 5000 万行 Ruby 库迁移。
- 安全限制争议：Fable 5 在网络安全、生物化学领域自动降级至 Opus 4.8；针对前沿 LLM 开发（预训练流水线、GPU 集群设计、模型蒸馏）实施静默干预——模型不会拒绝，但会通过 Prompt 修改、Steering Vectors、PEFT 等悄悄降低能力，用户不知情。Gary Marcus 呼吁 Anthropic 暂停发布一月。社区发现“线粒体是什么”等基础生物问题也会触发降级。
- 生态集成：Cursor、Devin、Notion、GitHub Copilot、Genspark、Dify 等数十家平台当日接入。但 Genspark 因数据保留政策（Anthropic 要求 Mythos 级流量保留 30 天）暂时无法提供 Fable 5。
行业意义：Fable 5 展示了当前最强编码与推理能力，但其“拉梯子”式安全设计（限制竞争对手和开源社区用模型改进自身）可能加速开源替代方案的发展。 🔗 Anthropic 博客 | Karpathy 推文 | Victor Taelin 推文 | Gary Marcus 推文 | Genspark 推文 | 宝玉解读

2️⃣ Cohere 开源 North Mini Code：30B MoE 编码模型，Agent 编程新选择#

核心发布：Cohere 发布首个开源编码模型 North Mini Code，参数 30B 总/3B 激活（MoE，128 专家，每 token 激活 8 个），256K 上下文，Apache 2.0 许可。在 Artificial Analysis Coding Index 上达 33.4 分，同体量开源领先。
训练方法：三阶段后训练——两阶段级联 SFT（70% 代码含 Agent 工具调用）→ RLVR（CISPO 算法，Terminal + SWE 双环境）→ 跨 Harness 泛化。SWE-Bench Verified pass@10 达 80.2%，Terminal-Bench v2 pass@10 达 55.1%（RL 后 +7.9%）。
行业意义：首个专为 Agentic Coding 设计的开源小模型，单块 H100 可跑，为预算敏感团队和本地部署提供闭源模型的可行替代，推动编码 Agent 普惠化。 🔗 Cohere 博客 | Hugging Face | meng shao 解读

3️⃣ OpenAI 内部员工：Chat is dead，ChatGPT 正改版为超级 App#

核心信息：据英国《金融时报》报道，OpenAI 内部员工透露“Chat is dead”，ChatGPT 即将进行自 2022 年上线以来最大改版。新版本将整合 Codex、AI Agent、图像生成及第三方应用（Canva、Booking 等），向横跨工作与生活的超级助理进化，预计未来几周分阶段推出。OpenAI 企业产品负责人称目标是打造“能帮你做任何事的个人智能体”。
行业意义：这标志对话式 AI 从单一聊天工具走向平台化，与 Anthropic Claude Code 生态直接竞争，也反映 OpenAI 在 IPO 前急于从免费聊天转向高利润企业工具。 🔗 Financial Times via AI Will | 宝玉转述

4️⃣ [持续跟踪] Perplexity × Harvard 研究：AI Agent 提升知识工作效率 87%，成本降低 94%#

前情提要：昨日 Perplexity 与哈佛商学院联合发布 Agent 效率研究。
最新突破：今日更多细节公开：研究基于真实使用数据，Computer 平均机器执行时间 26 分钟（Search 33 秒），用户中断率相似（3.7% vs 3.4%），满意度更高（不满率 1.3% vs 2.9%）。时间节省 79-92%，成本节省 87-96%。76% Computer 查询涉及高阶认知任务（Search 55%），用户从“操作者”转向“监督者”。
行业意义：首个来自主流 AI 平台与顶级学术机构的 Agent 效率实证，为自主 Agent 的 ROI 提供了扎实数据基础。 🔗 研究论文 | Perplexity 推文 | meng shao 长文

5️⃣ 苹果详解第三代基础模型：端侧 200 亿参数稀疏模型，借助 Gemini“精炼”#

核心发布：WWDC 后苹果 AI 副总裁详解第三代 Apple Foundation Models（AFM 3）。包含两款端侧模型——AFM 3 Core（3B）和 AFM 3 Core Advanced（20B 稀疏模型，面向最强芯片优化），以及三款云端模型。20B 端侧模型不对每 token 交换权重，而是对整个提示做一次路由决策，从 NAND 闪存加载 FFN 专家参数到 DRAM。云端模型明确针对英伟达 GPU 优化，训练中借助 Gemini 进行“精炼”，但不在 iOS 中直接部署 Gemini。
行业意义：苹果的端侧稀疏激活架构展示了差异化路径——不追求云端最强，而是在设备端实现高效推理，为隐私敏感场景提供基础设施。 🔗 爱范儿早报（腾讯科技源）

6️⃣ 微信生态双更新：朋友圈搜索全量开放，AI 生态接入滴滴、美的等#

朋友圈搜索：微信正式全面开放朋友圈搜索功能，支持关键词搜索并引入“选择朋友”“选择发布时间”筛选机制，覆盖 iOS 及 Android。
AI 生态开放：微信公开课发布开发者接入 AI 生态指引，提供自动模式（平台自动分析小程序源码）和开发模式（开发者定制页面）。滴滴（网约车接入，AI 可推荐车型并一键叫车）、京东、美团、携程、肯德基、美的全屋智能（覆盖空调、热水器等设备控制）等成为首批内测团队。
行业意义：微信正在将 14 亿用户的超级应用变为 AI Agent 的基础设施层，其中心化审核和 API 设计为 AI 调用提供了天然闭环。 🔗 爱范儿早报

7️⃣ 小米 MiMo 推出 UltraSpeed 推理模式：1000+ tps 推理 1T MoE 模型#

核心发布：小米 MiMo 团队与 TileRT 宣布推出 MiMo-V2.5-Pro-UltraSpeed 推理模式，在单台标准 8 卡通用 GPU 节点上实现每秒超过 1000 tokens 生成速度。采用选择性 FP4 量化（仅 MoE 专家）、DFlash 块级掩码投机解码（接受长度 6.3-4.3）、持久化低延迟内核。Hugging Face 已提供 FP4 权重。
社区实测：KOL 在实际 3D 游戏生成中 TPS 达 804-1426，首次响应时间 0.83-4.71 秒，模型能力无明显下降。
行业意义：推理速度直接决定 Agent 的 Token 成本和用户体验。MiMo 与 DeepSeek、MiniMax 等一起推动万亿参数模型的高吞吐低成本推理。 🔗 小米 MiMo HuggingFace | op7418 实测 | Reddit 讨论

8️⃣ 国家安全部提示“AI 中转站”数据风险#

核心提示：国家安全部发布安全提示，警惕“AI 中转站”数据安全风险。第三方中转服务可能记录用户输入内容、保存 API Key，甚至将敏感信息用于二次训练、转售或钓鱼攻击，尤其以低价、免注册、聚合多模型为卖点。
行业意义：随着 AI Agent 广泛调用 API，数据链路透明度成为企业合规和个人隐私的关键议题。该提示可能推动更严格的数据审计要求和自部署方案。 🔗 爱范儿早报