Yeekal Logo Yeekal
5,894 字
早报 | MORNING 2026-06-19

Shazeer加入OpenAI,Anthropic与白宫合作制定越狱标准

今日要点
  • Noam Shazeer宣布离开Google加入OpenAI
  • Anthropic与白宫合作制定越狱评估标准化框架
  • OpenAI发布持久有益对齐研究,53项评估44项改善
上一期 · 2026-06-18 已是最新一期
Noam Shazeer(Transformer核心作者)在Twitter宣布离开Google、加入OpenAI,他在2024年通过Character.AI收购回归Google后仅两年再次离职;Politico报道白宫与Anthropic合作创建正式技术评估框架,用于量化越狱严重性并标准化评估方法;OpenAI发布持久有益对齐研究,通过RL训练使模型在53项独立评估中的44项获得改善,并初步抵抗有害微调。

title: “OpenAI 发布持久有益对齐研究,Anthropic 与白宫合作制定 AI 安全标准” lead: “OpenAI 今天宣布其最新的对齐研究成果,通过RL训练模型将有益特质传递到新领域,在53项评估中44项获得改善;Anthropic 与白宫合作制定 AI 越狱评估标准化框架,Fable/Mythos 回归出现转机;Jeff Dean 发布从 TPU v2 到 Ironwood 的论文,能效提升30倍。” highlights:

  • “OpenAI 发布持久有益行为对齐研究,53项评估44项改善”
  • “Anthropic 与白宫制定标准化越狱评估框架,模型回归有望”
  • “Jeff Dean 发布 TPU 架构论文,从 v2 到 Ironwood 能效提升30倍”

1️⃣ 持久对齐:OpenAI 发布新研究,训练模型将有益特质带入新场景#

  • 核心发布:OpenAI 今日发布新研究“训练模型实现广泛且持久的有益行为”,旨在让 AI 在更长时、更高风险的任务中,将有益和安全的特质带入训练范围之外的新领域,并在压力下保持。
  • 方法论:团队使用强化学习(RL)在真实对话中训练模型,在健康、科学、教育等12个领域强化诚实、不确定性下的谦逊、接受纠正、公平和对人类福祉的关注等有益特质。
  • 关键数据:与计算匹配的基线相比,训练后的模型在53项独立评估中的44项上取得了改善,这些评估涵盖了欺骗、奖励黑客、安全、健康和心理健康等领域。少量训练数据带来了训练场景之外的广泛收益。
  • 压力测试:模型在对抗性提示下更难被引导至有害行为,同时保持对有益指令的响应,并显示出对有害微调具有初步的抵抗力。
  • 行业意义:这项研究是迈向更鲁棒、更有益模型的重要一步,展示了通过RL训练将有益特质“泛化”到新场景的可行性,对于构建可信赖的长时自治 Agent 具有直接指导意义。 🔗 OpenAI 推文 | alignment.openai.com

2️⃣ [持续跟踪] 曙光初现:Anthropic 与白宫合作制定越狱评估标准,Fable/Mythos 回归有望#

  • 前情提要:美国政府于6月13日以国家安全为由迫使Anthropic全球下线Fable 5和Mythos 5。后续事件持续发酵,包括亚马逊CEO告状、白宫24小时决策等内幕曝光。
  • 最新突破:Politico 报道,白宫与 Anthropic 正在合作创建一个正式的技术评估框架,用于量化越狱的严重性,并建立标准化方法论来评估未来类似事件。这是双方谈判取得进展的最明确信号,也反映出一个共识——没有AI模型能完全免疫于越狱攻击。
  • 框架目标:制定一套通用基准,用于评估未来的越狱行为,包括安全措施被绕过的程度、暴露的能力、以及漏洞的实际后果。
  • Project Fetch Phase 2:Anthropic 今日同步发布Project Fetch第二阶段结果,Claude Opus 4.7 在给机器狗编程的任务中,比去年由 Opus 4.1 辅助的最佳人类团队快约20倍。(尽管机器狗仍然没能成功捡起沙滩球)。
  • 行业意义:从对抗到合作,这一转变意味着美国政府开始从“事后管制”转向“共建标准”,为前沿模型的合规运营开辟了新的路径,而非简单的“禁止”。 🔗 Politico 报道 | Anthropic Project Fetch | Gary Marcus 评论

3️⃣ Google 训练超算进化史:Jeff Dean 发布 TPU v2 至 Ironwood 论文#

  • 核心发布:Google 高级研究员 Jeff Dean 今日介绍其同事关于“Google 训练超算:从TPU v2到 Ironwood”的论文,收录于 IEEE Micro 2026年7/8月期。
  • 核心数据:论文详细披露了TPU架构从v2到Ironwood五代演进的关键数据:
    • 能效:每TFLOPS/Watt提升了约30倍。
    • 规模:单pod规模从TPU v2的256颗芯片扩展到Ironwood的9216颗。
    • 散热:从TPU v2的风冷升级到v3之后的水冷。
    • 互联:从2D Torus升级到3D Torus。
    • 工作负载演变:Transformer模型占比持续增加,逐步取代其他架构。
  • 行业意义:这是迄今为止最透明、数据最详实的顶级AI芯片演进记录。30倍的能效提升不仅体现了硬件工程的可扩展性(Scale Law),也为整个AI硬件行业设定了明确的性能基准。 🔗 Jeff Dean 推文 | 论文链接

4️⃣ OpenAI 医疗新篇章:GPT-5.5 Instant 健康问答能力追平前沿模型,与全球医生网络合作#

  • 核心发布:OpenAI 宣布 GPT-5.5 Instant 在健康相关问题上的表现已追平其前沿 Thinking 模型。每周有超过2.3亿人在ChatGPT上提出健康和保健问题。
  • 能力提升:GPT-5.5 Instant 现在能更好地识别是否需要紧急医疗、询问相关背景信息、解释不确定性,并使复杂信息更易于理解。这些改进已对所有免费用户开放。
  • 医生协作网络:OpenAI 与横跨60个国家、49种语言、26个专业的数百名医生网络合作。医生反馈直接用于模型训练,帮助模型在回答中减少置信度过高、提供更清晰的后续步骤、并鼓励用户及时就医。
  • 背景事件:OpenAI 今日还发布了o3 Deep Research在波士顿儿童医院和哈佛的合作研究,发表于NEJM AI,展示了AI辅助分析多年未确诊的罕见儿科疾病病例的能力。
  • 行业意义:OpenAI 正在系统性地攻克医疗这一高价值、高风险的垂直领域。其与全球医生网络合作的模式,为“模型+专家反馈”的垂直领域优化提供了可复制的范本,证明了通用模型在高度专业领域中的潜力。 🔗 OpenAI 健康博客 | o3 罕见病诊断 | Greg Brockman 评论

5️⃣ Stanford AI Lab 发布 M*:统一多模态模型运行时,TTS 提速2.7倍、世界模型提速12.5倍#

  • 核心发布:Stanford AI Lab 推出 M*,一个统一的运行时,用于服务现代复合多模态模型。现代多模态模型不再是单个解码循环,而是复合系统,M* 用一个运行时服务所有模型。
  • 性能数据:在全向 TTS 任务上速度提升高达2.7倍,在世界模型 rollout 任务上速度提升高达12.5倍。M* 在性能上匹配或超越了所有专用的专业化系统。
  • 行业意义:这项研究直面了多模态模型部署中的架构复杂性挑战。M* 提供了一个泛用、高效的运行时方案,能显著降低从研究到部署的摩擦,并释放多模态复合模型的全部潜力。 🔗 Stanford AI Lab 推文 | 学术博客

6️⃣ Amazon Bedrock AgentCore Harness 正式 GA:两 API 调用构建生产级 Agent#

  • 核心发布:Amazon Bedrock AgentCore Harness 今日正式全面可用。开发者只需调用 CreateHarnessInvokeHarness 两个API,即可在数分钟内搭建一个具备沙箱环境、持久记忆、工具集成、可观测性等能力的生产级Agent。
  • 关键特性
    • 任意模型:支持Bedrock、OpenAI、Gemini、LiteLLM等,可随时切换,甚至在同一会话中切换模型以规划、编码和总结。
    • 工具即配置:支持AgentCore Gateway、MCP服务器、沙箱浏览器、代码解释器等工具,只需声明即可连接。
    • 内置记忆:自动提供语义+摘要记忆,支持持续30天的事件过期,多租户隔离。
    • 技能系统:支持AWS官方技能包、Git、S3和本地路径技能,可赋予Agent特定领域的专业知识。
    • 统一可观测性:CloudWatch原生集成,可视化追踪Agent的每一步。
    • 导出为代码:当配置不再是终点时,可将Harness一键导出为基于Strands框架的代码。
  • 行业意义:这是目前最全面的托管 Agent 平台发布之一,将Agent开发从“拼凑基础设施”转变为“配置即运行”,显著降低了企业采用和部署Agent的门槛。 🔗 AWS 博客

7️⃣ Agent 工具生态密集更新:Claude Code Artifacts、Codex Record & Replay、Cursor Automations#

  • Claude Code Artifacts:Claude Code 推出 Artifacts 功能,可将会话中的代码库、插件、工具等上下文构建成交互式页面(如PR走查、项目仪表盘),并通过私有链接分享给团队。随会话进展自动刷新,处于beta阶段,面向Team和Enterprise计划。
  • Codex Record & Replay:OpenAI Codex 上线 Record & Replay 功能。用户在 Mac 上演示一次重复性操作,Codex 会自动观察并生成一个可检查、可编辑的 Skill。下次遇到同样任务,只需提供新参数,Codex 就能重新执行。目前仅限 macOS。
  • Cursor Automations:Cursor Automations 新增 /automate 命令,用户用自然语言描述任务,Cursor 自动配置触发器、指令和工具。同时支持 Slack 表情触发和 GitHub Issue/Review 触发。
  • LangSmith LLM Gateway:LangChain 推出 LangSmith LLM Gateway,防止因 Agent bug 或循环而导致的一夜烧掉 1 万美元的情况,提供开销控制与审计。
  • Perplexity Brain:Perplexity 为 Computer Agent 推出“Brain”连续学习记忆系统,性能数据显示正确率提高 25%,召回提高 16%,每次任务成本降低 13%。
  • 行业意义:Agent 工具的竞速已从单一的“写代码”能力,扩展到“协作与复用”(Artifacts、Record & Replay)、“自动化编排”(Cursor Automations)和“成本与安全控制”(LLM Gateway)的全面竞争,标志着 Agent 开发正式进入工程化成熟阶段。 🔗 Claude Code Artifacts | Codex Record & Replay | Cursor Automations | LangSmith Gateway | Perplexity Brain

8️⃣ xAI Grok 生态扩展:Grok TTS 接近真人、Grok 登陆 Databricks#

  • Grok TTS 人声评分:xAI 的 Grok TTS 模型在 Vapi 的盲测“Humanness Index”中以96分(满分100)的成绩位居榜首,仅比真实人类语音(100分)低4分,标志着文本转语音技术达到了新的逼真度水平。
  • Grok 登陆 Databricks:xAI 宣布 Grok 模型现已在 Databricks Agent Bricks 上可用,允许企业将前沿模型与其企业数据结合,构建强大的 AI Agents。
  • 行业意义:xAI 正在迅速构建从语言、语音到企业平台的完整生态。Grok TTS 的突破意味着 AI 语音交互在感官上将难以与真人区分,而登陆 Databricks 则标志着 xAI 正式进入企业级 AI 平台竞争。 🔗 xAI Grok TTS | xAI Databricks

9️⃣ 其他重大行业动态与洞察#

  • Poolside 发布 Laguna M.1:编程领域 AI 公司 Poolside 开源其最强大模型 Laguna M.1(256K上下文)的权重。HuggingFace CEO 评论称“开放权重现在是我们的默认”。这是继 GLM-5.2 之后,又一重量级开源模型。
  • Slack MCP 客户端发布:Slack 发布 Slackbot 的 MCP 客户端,支持 20+ 合作伙伴应用,包括直接在对话中通过 Replit 构建应用、更新 Linear 工单、创建 Canva 设计等,标志着 Agent 协作的办公场景落地。
  • GitHub PR 限制功能:GitHub 推出 PR 限制功能,允许仓库管理员限制无写入权限的用户可打开的 PR 数量。此举旨在应对因 AI 生成代码激增(2023年1月至2026年,PR量从2500万暴增至9000万/月)而带来的低质量贡献问题。
  • 美国 AI 采用率:Marc Andreessen 引用 Pew 报告指出,约半数美国成年人使用 AI 聊天机器人,其中四分之一每日使用。
  • a16z AI 观点:a16z GP Anish Acharya 表示,AI Agents 正使非技术人员也能制作软件,创造新的数字创业机会。 🔗 Poolside 开源 | Slack MCP | GitHub PR 限制 | Pew 报告 | a16z 评论

⭐ GitHub 趋势#

📊 类别速览

项目类别Stars
Kilo-Org/kilocodeAI Agent / 编码工具22.1k
zai-org/GLM-5模型 / 推理4.1k
withastro/flueAI Agent 框架5.5k

1. Kilo-Org/kilocode ⭐ 今日 +1345#

语言/许可: TypeScript / MIT
总 Stars: 22.1k
仓库: GitHub

项目定位:
面向开发者的多平台 AI 编码 agent(VS Code、JetBrains、CLI),将自然语言需求转化为代码编辑、调试和自动化操作,支持 500+ 模型并可在任务中切换。

核心功能:

  • 多 agent 模式:Code(编码)、Plan(架构设计)、Ask(问答)、Debug(调试)、Review(代码审查),可自定义
  • 内置终端和浏览器控制,支持自动执行 shell 命令及网页操作
  • 模型提供商中立,支持 OpenAI、Anthropic、Google、本地模型等,提供统一 API 网关且无加价
  • 支持 MCP 协议扩展工具,以及用于 CI/CD 的全自动模式(kilo run --auto

技术亮点:
基于 TypeScript 实现跨平台 CLI 和 IDE 扩展,插件化架构支持热插拔 agent 行为;--auto 模式允许无提示自主操作,适用于管道集成。


2. zai-org/GLM-5 ⭐ 今日 +202#

语言/许可: Python / Apache-2.0
总 Stars: 4.1k
仓库: GitHub

项目定位:
智谱 AI 发布的开源旗舰模型系列(GLM-5/5.1/5.2),面向长周期 agentic 任务和复杂系统工程,采用 744B 参数(40B 激活)MoE 架构,并提供 1M token 上下文窗口。

核心功能:

  • 多版本模型:GLM-5.2(1M 上下文)、GLM-5.1(长周期自主规划)、GLM-5(基础版),均提供 BF16 和 FP8 权重
  • 支持通过 reasoning_effort 参数控制推理预算(max / high),可关闭推理
  • 集成 IndexShare 稀疏注意力机制(每 4 层共享索引器),降低 1M 上下文下 2.9× FLOPs
  • 提供同步 MTP 层用于推测解码,接受长度提升最高 20%

技术亮点:
采用 DeepSeek Sparse Attention 降低部署成本;训练使用自研异步 RL 框架 slime;推理支持 SGLang、vLLM、KTransformers、Transformers 等主流引擎,并适配 Ascend NPU。


3. withastro/flue ⭐ 今日 +162#

语言/许可: TypeScript / Apache-2.0
总 Stars: 5.5k
仓库: GitHub

项目定位:
Astro 团队开源的 TypeScript Agent harness 框架,为自主 agent 提供可编程的运行环境,包括沙箱、持久化、子 agent 和工作流编排,支持本地 CLI 或云端部署。

核心功能:

  • 通过 createAgent() 声明式定义 agent,配置模型、工具、技能、沙箱和指令
  • 内置沙箱(local/virtual/remote)隔离文件系统和命令执行,支持 Daytona 等远端沙箱
  • 工作流引擎:将有向图逻辑与 agent 推理结合,支持结构化输入输出
  • 可观测性:集成 OpenTelemetry、Braintrust、Sentry,以及 Postgres 持久化适配器

技术亮点:
基于 TypeScript 运行时,使用 ES Module 静态分析技能文件(* with { type: 'skill' });支持 Cloudflare Workers、GitHub Actions、Render 等多种部署目标,子 agent 模式允许主 agent 动态委派子任务。

🟧 Hacker News 热议#

Launch HN: TesterArmy (YC P26) – Agents that test web and mobile apps#

91 pts · 43 comments · tester.army

📌 内容总结

  • 作者想做什么:提供一个 AI 代理测试服务,用户用自然语言描述测试场景,代理在真实浏览器中执行并返回截图、录屏和报告。支持 Web 和移动端,集成 CI/CD。
  • HN 关注点:
    • 与传统 E2E 框架(Playwright/Cypress)的对比:代理测试更灵活,但成本与可靠性存疑。
    • 定价:$300/1000 测试,对大量 PR 场景可能不够,作者承诺后续会加更高用量计划。
    • 安全与控制:产品无需访问代码库,只给 URL 或二进制即可运行。
    • 移动端支持:同时支持 iOS/Android,使用混合视觉 + 辅助功能 API,速度优于纯视觉方案。

💬 讨论总结

  • 共识:代理测试在动态内容、认证流程(OAuth/OTP)、验证码、AI 生成内容等场景确实有优势,比静态 E2E 脚本更接近手动 QA。
  • 工程经验:静态 E2E 的脆弱性(选择器、等待时间)、基础设施复杂度(模拟器、邮箱、视频录制)是真实痛点。TesterArmy 通过轨迹注入、分步执行和上下文缓存来保证结果稳定。
  • 质疑:有评论认为 LLM 时代编写 E2E 已经非常便宜,而且确定性高;代理测试的 token 成本更高且结果非确定性。作者回应通过缓存历史轨迹、使用 Gemini 3 Flash 等廉价模型来降低成本。
  • 反对意见:一条评论明确指出“最不可靠的测试即服务”,认为不可靠的测试不如没有测试。作者未直接回复。
  • 技术细节:fast 模型为 Gemini 3 Flash,deep 模型为 GPT 5.4,视觉模型同样为 GPT 5.4。每步运行时间上限 15 分钟。

🔗 原文 · HN 讨论页

Noam Shazeer Joins OpenAI#

260 pts · 235 comments · twitter.com/noamshazeer

📌 内容总结

  • 背景:Noam Shazeer(“Attention Is All You Need” 核心作者之一)在 Twitter 宣布离开 Google 加入 OpenAI。他于 2024 年通过 Character.AI 的收购交易(~$2.7B)回归 Google,担任 Gemini 联合负责人,约两年后再次离开。
  • HN 关注点:
    • 对 Google Gemini 的打击:Shazeer 被视为 Gemini 2.5 Pro 等关键改进的推动者。
    • 人才流失原因:包括企业文化(官僚政治、决策缓慢)、意识形态冲突(Shazeer 公开的强烈亲以色列立场)、以及 OpenAI 提供的更优待遇(推测为 IPO 前期权)。
    • OpenAI 的动机:被看作应对 Anthropic 压力的紧急补强,但 OpenAI 自身财务泄漏也引发担忧。
    • 非竞争条款的实际限制:不能强制留人,只能通过不断加钱激励;OpenAI 可能用更大额度的 RSU 买断了未归属的 Google 奖励。

💬 讨论总结

  • 共识:Shazeer 是 transformer 时代最具影响力的工程师之一,其离开对 Google 是重大损失。
  • 历史背景:Shazeer 2000 年加入 Google,独立实现了最早的注意力机制代码;2021 年创立 Character.AI(2025-26 年因青少年自杀诉讼与 Google 共同和解);2024 年通过收购回归,2026 年再次离开。
  • 支持理由:OpenAI 能提供更专注的研究环境、更高的自由度以及 IPO 前股权激励。部分评论认为 Google 的 AI 产品总是“第二”,核心问题是管理层和文化,而非人才。
  • 质疑:模型商品化趋势下,单一工程师的影响力有限。Google 在数据、算力、用户分布上有无法比拟的优势,人才流动不一定是致命伤。
  • 反对意见:有评论认为 OpenAI 处于财务紧急状态(“烧钱”),Shazeer 加入可能判断失误;另有观点这是纯粹的 PR 招聘,Shazeer 因政治立场与 Google 不兼容(Google 曾因内容审核政策解雇员工),而 Altman 同样亲近以色列,因此更匹配。
  • 商业现实:Google 曾用 27 亿美元买回 Character.AI 团队,却未能锁住核心人物;OpenAI 愿意支付更高成本,但同时面临自身盈利能力不可持续的风险。

🔗 原文 · HN 讨论页

Agentic Resource Discovery Specification#

45 pts · 11 comments · agenticresourcediscovery.org

📌 内容总结

  • 背景:AI 客户端需要发现外部能力(MCP 服务器、API、工具、Agent),当前手动管理不可扩展。ARD 规范定义了一个统一查询接口,让客户端通过“哪个资源能解决这个任务?”获取匹配结果,只负责发现,不负责调用。GitHub Agent Finder 和 Hugging Face Discover 已实现。
  • HN 关注点:
    • 与现有协议(MCP Resources、A2A)的重叠,是否有必要再创建一个新标准?
    • 发现本质是“搜索”,但一旦有价值就会面临 SEO 垃圾、欺诈等相同问题。
    • 企业内实现:有团队用 Wiki + 知识图谱 + 可执行脚本做类似的事情。

💬 讨论总结

  • 共识:问题真实存在——手动管理不可扩展,但解决方案可能过度设计。
  • 工程经验:多个评论分享企业内部实践——用 Wiki 文档+ YAML 描述 + MCP 工具渐进式披露实现能力发现,效果良好。
  • 反对意见:不需要新规范,Agent 可以直接用 Google 搜索或读取 .well-known/agent.md 进行自举。XKCD 927(标准太多)被多次提及。
  • 支持观点:在封闭的企业环境中,统一接口让多个 Agent 相互发现是有价值的。
  • 风险:一旦发现服务有价值,会继承 App Store 和 SEO 的对抗动态——垃圾、欺诈、排名操控。

🔗 原文 · HN 讨论页

今日洞察#

Agent 工具的同日密集更新,暴露了一个更根本的变化:行业竞争的重心正在从“模型能力”转移到“工程化部署”。Claude Code Artifacts(上下文构建可分享页面)、Codex Record & Replay(录制重复操作为可编辑 Skill)、Cursor Automations(自然语言配置自动化工作流)以及 LangSmith LLM Gateway(防止 Agent 循环烧钱),这四个来自不同团队的产品同时在今天发布。它们不是比速度,而是比协作、复用、成本控制——这些是工程化成熟的关键标志。

二阶影响很直接:开发者的默认选择将开始从“用哪个模型”转向“用哪个工具生态”。当 Artifacts 允许团队共享上下文、Record & Replay 将一次操作变成可复现的 Skill、Automations 把自然语言触发变成 CI/CD 的一部分时,不同 Agent 产品之间的粘性差异已经从模型能力转移到了这些工程特性上。同一时间内,LangSmith Gateway 的出现暗示一个此前被忽视的约束——Agent 无法自控成本,需要外部网关来兜底。这意味着企业级采纳的条件正在从“模型够聪明”变成“工具够可控”。

今天这些工具不是孤立的更新,而是 Agent 开发正式进入工程化成熟阶段的集体信号。接下来的竞争将不在模型 benchmark 上,而在用户多久能安全、可靠、可重复地把 Agent 放入生产流水线。