AI Daily 2026-06-19 | Noam Shazeer离开Google加入OpenAI，Anthropic与白宫合作创建越狱评估框架，OpenAI发布持久对齐研究

title: “OpenAI 发布持久有益对齐研究，Anthropic 与白宫合作制定 AI 安全标准” lead: “OpenAI 今天宣布其最新的对齐研究成果，通过RL训练模型将有益特质传递到新领域，在53项评估中44项获得改善；Anthropic 与白宫合作制定 AI 越狱评估标准化框架，Fable/Mythos 回归出现转机；Jeff Dean 发布从 TPU v2 到 Ironwood 的论文，能效提升30倍。” highlights:

“OpenAI 发布持久有益行为对齐研究，53项评估44项改善”
“Anthropic 与白宫制定标准化越狱评估框架，模型回归有望”
“Jeff Dean 发布 TPU 架构论文，从 v2 到 Ironwood 能效提升30倍”

1️⃣ 持久对齐：OpenAI 发布新研究，训练模型将有益特质带入新场景#

核心发布：OpenAI 今日发布新研究“训练模型实现广泛且持久的有益行为”，旨在让 AI 在更长时、更高风险的任务中，将有益和安全的特质带入训练范围之外的新领域，并在压力下保持。
方法论：团队使用强化学习（RL）在真实对话中训练模型，在健康、科学、教育等12个领域强化诚实、不确定性下的谦逊、接受纠正、公平和对人类福祉的关注等有益特质。
关键数据：与计算匹配的基线相比，训练后的模型在53项独立评估中的44项上取得了改善，这些评估涵盖了欺骗、奖励黑客、安全、健康和心理健康等领域。少量训练数据带来了训练场景之外的广泛收益。
压力测试：模型在对抗性提示下更难被引导至有害行为，同时保持对有益指令的响应，并显示出对有害微调具有初步的抵抗力。
行业意义：这项研究是迈向更鲁棒、更有益模型的重要一步，展示了通过RL训练将有益特质“泛化”到新场景的可行性，对于构建可信赖的长时自治 Agent 具有直接指导意义。 🔗 OpenAI 推文 | alignment.openai.com

2️⃣ [持续跟踪] 曙光初现：Anthropic 与白宫合作制定越狱评估标准，Fable/Mythos 回归有望#

前情提要：美国政府于6月13日以国家安全为由迫使Anthropic全球下线Fable 5和Mythos 5。后续事件持续发酵，包括亚马逊CEO告状、白宫24小时决策等内幕曝光。
最新突破：Politico 报道，白宫与 Anthropic 正在合作创建一个正式的技术评估框架，用于量化越狱的严重性，并建立标准化方法论来评估未来类似事件。这是双方谈判取得进展的最明确信号，也反映出一个共识——没有AI模型能完全免疫于越狱攻击。
框架目标：制定一套通用基准，用于评估未来的越狱行为，包括安全措施被绕过的程度、暴露的能力、以及漏洞的实际后果。
Project Fetch Phase 2：Anthropic 今日同步发布Project Fetch第二阶段结果，Claude Opus 4.7 在给机器狗编程的任务中，比去年由 Opus 4.1 辅助的最佳人类团队快约20倍。（尽管机器狗仍然没能成功捡起沙滩球）。
行业意义：从对抗到合作，这一转变意味着美国政府开始从“事后管制”转向“共建标准”，为前沿模型的合规运营开辟了新的路径，而非简单的“禁止”。 🔗 Politico 报道 | Anthropic Project Fetch | Gary Marcus 评论

3️⃣ Google 训练超算进化史：Jeff Dean 发布 TPU v2 至 Ironwood 论文#

核心发布：Google 高级研究员 Jeff Dean 今日介绍其同事关于“Google 训练超算：从TPU v2到 Ironwood”的论文，收录于 IEEE Micro 2026年7/8月期。
核心数据：论文详细披露了TPU架构从v2到Ironwood五代演进的关键数据：
- 能效：每TFLOPS/Watt提升了约30倍。
- 规模：单pod规模从TPU v2的256颗芯片扩展到Ironwood的9216颗。
- 散热：从TPU v2的风冷升级到v3之后的水冷。
- 互联：从2D Torus升级到3D Torus。
- 工作负载演变：Transformer模型占比持续增加，逐步取代其他架构。
行业意义：这是迄今为止最透明、数据最详实的顶级AI芯片演进记录。30倍的能效提升不仅体现了硬件工程的可扩展性（Scale Law），也为整个AI硬件行业设定了明确的性能基准。 🔗 Jeff Dean 推文 | 论文链接

4️⃣ OpenAI 医疗新篇章：GPT-5.5 Instant 健康问答能力追平前沿模型，与全球医生网络合作#

核心发布：OpenAI 宣布 GPT-5.5 Instant 在健康相关问题上的表现已追平其前沿 Thinking 模型。每周有超过2.3亿人在ChatGPT上提出健康和保健问题。
能力提升：GPT-5.5 Instant 现在能更好地识别是否需要紧急医疗、询问相关背景信息、解释不确定性，并使复杂信息更易于理解。这些改进已对所有免费用户开放。
医生协作网络：OpenAI 与横跨60个国家、49种语言、26个专业的数百名医生网络合作。医生反馈直接用于模型训练，帮助模型在回答中减少置信度过高、提供更清晰的后续步骤、并鼓励用户及时就医。
背景事件：OpenAI 今日还发布了o3 Deep Research在波士顿儿童医院和哈佛的合作研究，发表于NEJM AI，展示了AI辅助分析多年未确诊的罕见儿科疾病病例的能力。
行业意义：OpenAI 正在系统性地攻克医疗这一高价值、高风险的垂直领域。其与全球医生网络合作的模式，为“模型+专家反馈”的垂直领域优化提供了可复制的范本，证明了通用模型在高度专业领域中的潜力。 🔗 OpenAI 健康博客 | o3 罕见病诊断 | Greg Brockman 评论

5️⃣ Stanford AI Lab 发布 M*：统一多模态模型运行时，TTS 提速2.7倍、世界模型提速12.5倍#

核心发布：Stanford AI Lab 推出 M*，一个统一的运行时，用于服务现代复合多模态模型。现代多模态模型不再是单个解码循环，而是复合系统，M* 用一个运行时服务所有模型。
性能数据：在全向 TTS 任务上速度提升高达2.7倍，在世界模型 rollout 任务上速度提升高达12.5倍。M* 在性能上匹配或超越了所有专用的专业化系统。
行业意义：这项研究直面了多模态模型部署中的架构复杂性挑战。M* 提供了一个泛用、高效的运行时方案，能显著降低从研究到部署的摩擦，并释放多模态复合模型的全部潜力。 🔗 Stanford AI Lab 推文 | 学术博客

6️⃣ Amazon Bedrock AgentCore Harness 正式 GA：两 API 调用构建生产级 Agent#

核心发布：Amazon Bedrock AgentCore Harness 今日正式全面可用。开发者只需调用 CreateHarness 和 InvokeHarness 两个API，即可在数分钟内搭建一个具备沙箱环境、持久记忆、工具集成、可观测性等能力的生产级Agent。
关键特性：
- 任意模型：支持Bedrock、OpenAI、Gemini、LiteLLM等，可随时切换，甚至在同一会话中切换模型以规划、编码和总结。
- 工具即配置：支持AgentCore Gateway、MCP服务器、沙箱浏览器、代码解释器等工具，只需声明即可连接。
- 内置记忆：自动提供语义+摘要记忆，支持持续30天的事件过期，多租户隔离。
- 技能系统：支持AWS官方技能包、Git、S3和本地路径技能，可赋予Agent特定领域的专业知识。
- 统一可观测性：CloudWatch原生集成，可视化追踪Agent的每一步。
- 导出为代码：当配置不再是终点时，可将Harness一键导出为基于Strands框架的代码。
行业意义：这是目前最全面的托管 Agent 平台发布之一，将Agent开发从“拼凑基础设施”转变为“配置即运行”，显著降低了企业采用和部署Agent的门槛。 🔗 AWS 博客

7️⃣ Agent 工具生态密集更新：Claude Code Artifacts、Codex Record & Replay、Cursor Automations#

Claude Code Artifacts：Claude Code 推出 Artifacts 功能，可将会话中的代码库、插件、工具等上下文构建成交互式页面（如PR走查、项目仪表盘），并通过私有链接分享给团队。随会话进展自动刷新，处于beta阶段，面向Team和Enterprise计划。
Codex Record & Replay：OpenAI Codex 上线 Record & Replay 功能。用户在 Mac 上演示一次重复性操作，Codex 会自动观察并生成一个可检查、可编辑的 Skill。下次遇到同样任务，只需提供新参数，Codex 就能重新执行。目前仅限 macOS。
Cursor Automations：Cursor Automations 新增 /automate 命令，用户用自然语言描述任务，Cursor 自动配置触发器、指令和工具。同时支持 Slack 表情触发和 GitHub Issue/Review 触发。
LangSmith LLM Gateway：LangChain 推出 LangSmith LLM Gateway，防止因 Agent bug 或循环而导致的一夜烧掉 1 万美元的情况，提供开销控制与审计。
Perplexity Brain：Perplexity 为 Computer Agent 推出“Brain”连续学习记忆系统，性能数据显示正确率提高 25%，召回提高 16%，每次任务成本降低 13%。
行业意义：Agent 工具的竞速已从单一的“写代码”能力，扩展到“协作与复用”（Artifacts、Record & Replay）、“自动化编排”（Cursor Automations）和“成本与安全控制”（LLM Gateway）的全面竞争，标志着 Agent 开发正式进入工程化成熟阶段。 🔗 Claude Code Artifacts | Codex Record & Replay | Cursor Automations | LangSmith Gateway | Perplexity Brain

8️⃣ xAI Grok 生态扩展：Grok TTS 接近真人、Grok 登陆 Databricks#

Grok TTS 人声评分：xAI 的 Grok TTS 模型在 Vapi 的盲测“Humanness Index”中以96分（满分100）的成绩位居榜首，仅比真实人类语音（100分）低4分，标志着文本转语音技术达到了新的逼真度水平。
Grok 登陆 Databricks：xAI 宣布 Grok 模型现已在 Databricks Agent Bricks 上可用，允许企业将前沿模型与其企业数据结合，构建强大的 AI Agents。
行业意义：xAI 正在迅速构建从语言、语音到企业平台的完整生态。Grok TTS 的突破意味着 AI 语音交互在感官上将难以与真人区分，而登陆 Databricks 则标志着 xAI 正式进入企业级 AI 平台竞争。 🔗 xAI Grok TTS | xAI Databricks

9️⃣ 其他重大行业动态与洞察#

Poolside 发布 Laguna M.1：编程领域 AI 公司 Poolside 开源其最强大模型 Laguna M.1（256K上下文）的权重。HuggingFace CEO 评论称“开放权重现在是我们的默认”。这是继 GLM-5.2 之后，又一重量级开源模型。
Slack MCP 客户端发布：Slack 发布 Slackbot 的 MCP 客户端，支持 20+ 合作伙伴应用，包括直接在对话中通过 Replit 构建应用、更新 Linear 工单、创建 Canva 设计等，标志着 Agent 协作的办公场景落地。
GitHub PR 限制功能：GitHub 推出 PR 限制功能，允许仓库管理员限制无写入权限的用户可打开的 PR 数量。此举旨在应对因 AI 生成代码激增（2023年1月至2026年，PR量从2500万暴增至9000万/月）而带来的低质量贡献问题。
美国 AI 采用率：Marc Andreessen 引用 Pew 报告指出，约半数美国成年人使用 AI 聊天机器人，其中四分之一每日使用。
a16z AI 观点：a16z GP Anish Acharya 表示，AI Agents 正使非技术人员也能制作软件，创造新的数字创业机会。 🔗 Poolside 开源 | Slack MCP | GitHub PR 限制 | Pew 报告 | a16z 评论

⭐ GitHub 趋势#

📊 类别速览

项目	类别	Stars
Kilo-Org/kilocode	AI Agent / 编码工具	22.1k
zai-org/GLM-5	模型 / 推理	4.1k
withastro/flue	AI Agent 框架	5.5k

1. Kilo-Org/kilocode ⭐ 今日 +1345#

语言/许可： TypeScript / MIT
总 Stars： 22.1k
仓库： GitHub

项目定位：
面向开发者的多平台 AI 编码 agent（VS Code、JetBrains、CLI），将自然语言需求转化为代码编辑、调试和自动化操作，支持 500+ 模型并可在任务中切换。

核心功能：

多 agent 模式：Code（编码）、Plan（架构设计）、Ask（问答）、Debug（调试）、Review（代码审查），可自定义
内置终端和浏览器控制，支持自动执行 shell 命令及网页操作
模型提供商中立，支持 OpenAI、Anthropic、Google、本地模型等，提供统一 API 网关且无加价
支持 MCP 协议扩展工具，以及用于 CI/CD 的全自动模式（kilo run --auto）

技术亮点：
基于 TypeScript 实现跨平台 CLI 和 IDE 扩展，插件化架构支持热插拔 agent 行为；--auto 模式允许无提示自主操作，适用于管道集成。

2. zai-org/GLM-5 ⭐ 今日 +202#

语言/许可： Python / Apache-2.0
总 Stars： 4.1k
仓库： GitHub

项目定位：
智谱 AI 发布的开源旗舰模型系列（GLM-5/5.1/5.2），面向长周期 agentic 任务和复杂系统工程，采用 744B 参数（40B 激活）MoE 架构，并提供 1M token 上下文窗口。

核心功能：

多版本模型：GLM-5.2（1M 上下文）、GLM-5.1（长周期自主规划）、GLM-5（基础版），均提供 BF16 和 FP8 权重
支持通过 reasoning_effort 参数控制推理预算（max / high），可关闭推理
集成 IndexShare 稀疏注意力机制（每 4 层共享索引器），降低 1M 上下文下 2.9× FLOPs
提供同步 MTP 层用于推测解码，接受长度提升最高 20%

技术亮点：
采用 DeepSeek Sparse Attention 降低部署成本；训练使用自研异步 RL 框架 slime；推理支持 SGLang、vLLM、KTransformers、Transformers 等主流引擎，并适配 Ascend NPU。

3. withastro/flue ⭐ 今日 +162#

语言/许可： TypeScript / Apache-2.0
总 Stars： 5.5k
仓库： GitHub

项目定位：
Astro 团队开源的 TypeScript Agent harness 框架，为自主 agent 提供可编程的运行环境，包括沙箱、持久化、子 agent 和工作流编排，支持本地 CLI 或云端部署。

核心功能：

通过 createAgent() 声明式定义 agent，配置模型、工具、技能、沙箱和指令
内置沙箱（local/virtual/remote）隔离文件系统和命令执行，支持 Daytona 等远端沙箱
工作流引擎：将有向图逻辑与 agent 推理结合，支持结构化输入输出
可观测性：集成 OpenTelemetry、Braintrust、Sentry，以及 Postgres 持久化适配器

技术亮点：
基于 TypeScript 运行时，使用 ES Module 静态分析技能文件（* with { type: 'skill' }）；支持 Cloudflare Workers、GitHub Actions、Render 等多种部署目标，子 agent 模式允许主 agent 动态委派子任务。

🟧 Hacker News 热议#

Launch HN: TesterArmy (YC P26) – Agents that test web and mobile apps#

91 pts · 43 comments · tester.army

📌 内容总结

作者想做什么：提供一个 AI 代理测试服务，用户用自然语言描述测试场景，代理在真实浏览器中执行并返回截图、录屏和报告。支持 Web 和移动端，集成 CI/CD。
HN 关注点:
- 与传统 E2E 框架（Playwright/Cypress）的对比：代理测试更灵活，但成本与可靠性存疑。
- 定价：$300/1000 测试，对大量 PR 场景可能不够，作者承诺后续会加更高用量计划。
- 安全与控制：产品无需访问代码库，只给 URL 或二进制即可运行。
- 移动端支持：同时支持 iOS/Android，使用混合视觉 + 辅助功能 API，速度优于纯视觉方案。

💬 讨论总结

共识：代理测试在动态内容、认证流程（OAuth/OTP）、验证码、AI 生成内容等场景确实有优势，比静态 E2E 脚本更接近手动 QA。
工程经验：静态 E2E 的脆弱性（选择器、等待时间）、基础设施复杂度（模拟器、邮箱、视频录制）是真实痛点。TesterArmy 通过轨迹注入、分步执行和上下文缓存来保证结果稳定。
质疑：有评论认为 LLM 时代编写 E2E 已经非常便宜，而且确定性高；代理测试的 token 成本更高且结果非确定性。作者回应通过缓存历史轨迹、使用 Gemini 3 Flash 等廉价模型来降低成本。
反对意见：一条评论明确指出“最不可靠的测试即服务”，认为不可靠的测试不如没有测试。作者未直接回复。
技术细节：fast 模型为 Gemini 3 Flash，deep 模型为 GPT 5.4，视觉模型同样为 GPT 5.4。每步运行时间上限 15 分钟。

🔗 原文 · HN 讨论页

Noam Shazeer Joins OpenAI#

260 pts · 235 comments · twitter.com/noamshazeer

📌 内容总结

背景：Noam Shazeer（“Attention Is All You Need” 核心作者之一）在 Twitter 宣布离开 Google 加入 OpenAI。他于 2024 年通过 Character.AI 的收购交易（~$2.7B）回归 Google，担任 Gemini 联合负责人，约两年后再次离开。
HN 关注点:
- 对 Google Gemini 的打击：Shazeer 被视为 Gemini 2.5 Pro 等关键改进的推动者。
- 人才流失原因：包括企业文化（官僚政治、决策缓慢）、意识形态冲突（Shazeer 公开的强烈亲以色列立场）、以及 OpenAI 提供的更优待遇（推测为 IPO 前期权）。
- OpenAI 的动机：被看作应对 Anthropic 压力的紧急补强，但 OpenAI 自身财务泄漏也引发担忧。
- 非竞争条款的实际限制：不能强制留人，只能通过不断加钱激励；OpenAI 可能用更大额度的 RSU 买断了未归属的 Google 奖励。

💬 讨论总结

共识：Shazeer 是 transformer 时代最具影响力的工程师之一，其离开对 Google 是重大损失。
历史背景：Shazeer 2000 年加入 Google，独立实现了最早的注意力机制代码；2021 年创立 Character.AI（2025-26 年因青少年自杀诉讼与 Google 共同和解）；2024 年通过收购回归，2026 年再次离开。
支持理由：OpenAI 能提供更专注的研究环境、更高的自由度以及 IPO 前股权激励。部分评论认为 Google 的 AI 产品总是“第二”，核心问题是管理层和文化，而非人才。
质疑：模型商品化趋势下，单一工程师的影响力有限。Google 在数据、算力、用户分布上有无法比拟的优势，人才流动不一定是致命伤。
反对意见：有评论认为 OpenAI 处于财务紧急状态（“烧钱”），Shazeer 加入可能判断失误；另有观点这是纯粹的 PR 招聘，Shazeer 因政治立场与 Google 不兼容（Google 曾因内容审核政策解雇员工），而 Altman 同样亲近以色列，因此更匹配。
商业现实：Google 曾用 27 亿美元买回 Character.AI 团队，却未能锁住核心人物；OpenAI 愿意支付更高成本，但同时面临自身盈利能力不可持续的风险。

🔗 原文 · HN 讨论页

Agentic Resource Discovery Specification#

45 pts · 11 comments · agenticresourcediscovery.org

📌 内容总结

背景：AI 客户端需要发现外部能力（MCP 服务器、API、工具、Agent），当前手动管理不可扩展。ARD 规范定义了一个统一查询接口，让客户端通过“哪个资源能解决这个任务？”获取匹配结果，只负责发现，不负责调用。GitHub Agent Finder 和 Hugging Face Discover 已实现。
HN 关注点:
- 与现有协议（MCP Resources、A2A）的重叠，是否有必要再创建一个新标准？
- 发现本质是“搜索”，但一旦有价值就会面临 SEO 垃圾、欺诈等相同问题。
- 企业内实现：有团队用 Wiki + 知识图谱 + 可执行脚本做类似的事情。

💬 讨论总结

共识：问题真实存在——手动管理不可扩展，但解决方案可能过度设计。
工程经验：多个评论分享企业内部实践——用 Wiki 文档+ YAML 描述 + MCP 工具渐进式披露实现能力发现，效果良好。
反对意见：不需要新规范，Agent 可以直接用 Google 搜索或读取 .well-known/agent.md 进行自举。XKCD 927（标准太多）被多次提及。
支持观点：在封闭的企业环境中，统一接口让多个 Agent 相互发现是有价值的。
风险：一旦发现服务有价值，会继承 App Store 和 SEO 的对抗动态——垃圾、欺诈、排名操控。

🔗 原文 · HN 讨论页

今日洞察#

Agent 工具的同日密集更新，暴露了一个更根本的变化：行业竞争的重心正在从“模型能力”转移到“工程化部署”。Claude Code Artifacts（上下文构建可分享页面）、Codex Record & Replay（录制重复操作为可编辑 Skill）、Cursor Automations（自然语言配置自动化工作流）以及 LangSmith LLM Gateway（防止 Agent 循环烧钱），这四个来自不同团队的产品同时在今天发布。它们不是比速度，而是比协作、复用、成本控制——这些是工程化成熟的关键标志。

二阶影响很直接：开发者的默认选择将开始从“用哪个模型”转向“用哪个工具生态”。当 Artifacts 允许团队共享上下文、Record & Replay 将一次操作变成可复现的 Skill、Automations 把自然语言触发变成 CI/CD 的一部分时，不同 Agent 产品之间的粘性差异已经从模型能力转移到了这些工程特性上。同一时间内，LangSmith Gateway 的出现暗示一个此前被忽视的约束——Agent 无法自控成本，需要外部网关来兜底。这意味着企业级采纳的条件正在从“模型够聪明”变成“工具够可控”。

今天这些工具不是孤立的更新，而是 Agent 开发正式进入工程化成熟阶段的集体信号。接下来的竞争将不在模型 benchmark 上，而在用户多久能安全、可靠、可重复地把 Agent 放入生产流水线。

Shazeer加入OpenAI，Anthropic与白宫合作制定越狱标准

1️⃣ 持久对齐：OpenAI 发布新研究，训练模型将有益特质带入新场景#

2️⃣ [持续跟踪] 曙光初现：Anthropic 与白宫合作制定越狱评估标准，Fable/Mythos 回归有望#

3️⃣ Google 训练超算进化史：Jeff Dean 发布 TPU v2 至 Ironwood 论文#

4️⃣ OpenAI 医疗新篇章：GPT-5.5 Instant 健康问答能力追平前沿模型，与全球医生网络合作#

5️⃣ Stanford AI Lab 发布 M*：统一多模态模型运行时，TTS 提速2.7倍、世界模型提速12.5倍#

6️⃣ Amazon Bedrock AgentCore Harness 正式 GA：两 API 调用构建生产级 Agent#

7️⃣ Agent 工具生态密集更新：Claude Code Artifacts、Codex Record & Replay、Cursor Automations#

8️⃣ xAI Grok 生态扩展：Grok TTS 接近真人、Grok 登陆 Databricks#

9️⃣ 其他重大行业动态与洞察#

⭐ GitHub 趋势#

1. Kilo-Org/kilocode ⭐ 今日 +1345#

2. zai-org/GLM-5 ⭐ 今日 +202#

3. withastro/flue ⭐ 今日 +162#

🟧 Hacker News 热议#

Launch HN: TesterArmy (YC P26) – Agents that test web and mobile apps#

Noam Shazeer Joins OpenAI#

Agentic Resource Discovery Specification#

今日洞察#