Yeekal Logo Yeekal
6,097 字
早报 | MORNING 2026-06-12

OpenAI 收购 Ona,Devin CLI 开源 handoff,Cursor 默认 Auto-review

今日要点
  • OpenAI 收购 Ona,Codex 可云端持续运行
  • Devin CLI 开源 handoff,Agent 任务脱离本地
  • Cursor 默认开启 Auto-review,Agent 操作自动审核
上一期 · 2026-06-11 已是最新一期
OpenAI 今日宣布收购安全云执行公司 Ona,使 Codex Agent 在笔记本电脑合上后仍可云端持续工作;Cognition 实验室同步开源 Devin CLI 的 /handoff 功能,支持相同场景;Cursor 默认对所有新用户开启 Auto-review,Subagent 分类器在 Agent 执行前审核操作,准确率 97%。上述更新共同指向 Agent 持续运行与安全默认两大趋势。

title: “Grok Build Plugin Marketplace上线,Perplexity Computer集成Deep Research” lead: “xAI 发布 Grok Build Plugin Marketplace beta,支持 MongoDB、Vercel 等插件;Perplexity 将 Deep Research 作为原生技能集成进 Computer;Cursor 默认开启 Auto-review,Agent 操作自动审核;Anthropic 启动 Claude Corps 培训 1000 人服务非营利组织。” highlights:

  • “xAI 推出 Grok Build Plugin Marketplace,支持 MongoDB、Vercel 等插件”
  • “Perplexity Computer 将 Deep Research 集成,基于 Search as Code 架构”
  • “Cursor 默认开启 Auto-review,Subagent 准确率 97%“

1️⃣ xAI 发布 Grok Build Plugin Marketplace:终端内构建,MongoDB、Vercel 首批入驻#

  • 核心发布:xAI 今日宣布 Grok Build Plugin Marketplace 进入 beta 阶段,开发者可直接从终端使用 MongoDB、Vercel、Sentry、Cloudflare、Chrome DevTools 等插件构建应用。每个插件可通过单一 prompt 调用,例如 MongoDB 插件支持探索数据、优化数据库性能和构建高性能向量搜索系统。
  • 生态合作:Vercel CEO Guillermo Rauch 直接转发并评论“Vercel + Grok”;Elon Musk 转推展示基于 Grok Build 重建的 Terafab 网站。MongoDB 插件已上线,可进行数据探索和向量搜索系统构建。
  • 行业意义:Grok 从对话模型向开发工具平台扩展,通过插件市场覆盖开发者工作流关键环节,是 xAI 在编码代理市场(对标 Claude Code、Codex)的重要布局。 🔗 xAI 官方推文 | xAI 新闻页 | Guillermo Rauch 推文 | Elon Musk 转推

2️⃣ [持续跟踪] Perplexity Computer 将 Deep Research 作为原生技能集成#

  • 前情提要:Perplexity 此前推出 Deep Research 独立模式,可进行多步检索研究。
  • 最新突破:今日 Perplexity 官方宣布将 Deep Research 作为原生技能集成进 Perplexity Computer,用户不再需要单独切换到该模式,只要使用 Computer 即可自动调用。该技能基于“Search as Code”架构——模型编写代码来自动组装搜索过程,并行运行数千次检索步骤。CEO Aravind Srinivas 表示这“显著推进了技术的前沿”,Deep Research 在每一个基准上都超越了旧版。
  • 可用性:对 Pro 和 Max 订阅用户开放,支持代码生成、沙箱、连接器、授权数据等。
  • 行业意义:自主研究能力从独立产品内化为 Agent 工作流的内置组件,体现了 AI 工具从“应用”向“环境”演进的趋势——用户只需描述目标,系统自动选择最佳方法。 🔗 Perplexity 官方推文 | 学习页面 | Aravind Srinivas 推文

3️⃣ Cursor 默认开启 Auto-review:Subagent 分类器自动审核 Agent 操作#

  • 核心发布:Cursor 官方宣布 Auto-review 现在对所有新用户默认启用。一个分类器 Subagent 在上下文中审核每一次 Agent 操作,在决定是否允许、阻止或请求批准之前进行评估。官方评测显示准确率达 97%,大多数失误发生在模糊边界场景。
  • 技术细节:分类器可感知上下文,能够区分良性操作(如读取文件)与危险操作(如执行未经验证的 shell 命令),在 Agent 执行前完成审核。
  • 行业意义:这是 AI 编码工具向“安全默认”迈出的重要一步。随着 Agent 自主性增强,运行时安全审核将从可选配置变为必需的基础设施,Cursor 此举为 Agent 安全操作设定了新标杆。 🔗 Cursor 官方推文 | 博客详情

4️⃣ Anthropic 启动 Claude Corps:培训 1000 名研究员服务全美非营利组织#

  • 核心发布:Anthropic 今日宣布启动 Claude Corps,一项全国性的奖学金计划:培训 1,000 名早期职业人士如何使用 Claude,并支付他们全职、实地服务美国非营利组织一年的薪资。研究员将与各非营利组织合作,利用 AI 推进其使命。
  • 定位:这是一项“国家服务”项目而非单纯的企业社会责任行动——研究员经选拔后接受系统培训,然后被匹配到有需求的非营利组织。Anthropic CEO Dario Amodei 在公开信中强调“我们想让 AI 的好处惠及最需要它的社区”。
  • 行业意义:与 OpenAI 和 Google 等主要押注商业市场不同,Anthropic 通过这项计划将 AI 能力直接注入社会基础设施,既塑造公共形象,也为模型积累真实世界的长尾使用数据——尤其是在非营利这一被商业 AI 忽视的领域。 🔗 Anthropic 官方推文 | 项目页面

5️⃣ Gemini Omni Flash 登顶 Video Arena:文本到视频和图像到视频双料第一#

  • 核心发布:lmarena.ai 今日发布最新榜单,Google Gemini Omni Flash 在 Video Arena 中同时登顶文本到视频和图像到视频两个赛道。在文本到视频中,比 Veo 3.1(1080p)提升 158 分,领先第二名 Seedance 2.0 达 61 分;在图像到视频中同样并列第一,比 Veo 3.1 提升 77 分。
  • Logan Kilpatrick 解读:Google 开发者关系负责人 Logan Kilpatrick 分享基准测试页面,称 Gemini Omni Flash 在图像到视频、文本到视频和视频编辑三方面均达 SOTA,并预告“很快将通过 API 提供给开发者”。
  • 行业意义:Google 在视频生成赛道的首次全面登顶,验证了其“将 Gemini 推理能力与生成媒体系统融合”的技术路线——Omni 模型不是单纯的视频生成器,而是能理解场景语义的创造性系统。 🔗 lmarena.ai 推文 | Logan Kilpatrick 推文

6️⃣ LangSmith LLM Gateway 发布:企业级 LLM 消费控制,支持 PII 检测与审计日志#

  • 核心发布:LangChain 今日发布 LangSmith LLM Gateway,这是一个专为企业设计的 LLM 流量管理前端层。核心功能包括:支出限制与可见性、PII 和机密检测、追踪连续性、LangSmith Engine 集成、审计日志以及分层强制执行(Layered Enforcement)。
  • 使用场景:企业可以通过此网关限制团队在特定模型上的月支出,自动检测提示词中的敏感信息并阻止外传,同时所有 LLM 调用都被完整记录以便合规审计。
  • 行业意义:LLM Gateway 类似于 API Gateway 在微服务架构中的角色——将模型调用治理从“纸面政策”提升为“运行时强制”。这是企业大规模采用 AI Agent 的必备基础设施,尤其是对于受监管行业。 🔗 LangChain 官方推文 | 博客介绍

7️⃣ OpenAI 收购安全云执行公司 Ona:增强 Codex 长时运行与生产部署安全性#

  • 核心事件:OpenAI Newsroom 今日宣布已达成收购 Ona 的协议。Ona 是一家专注于安全云执行技术的公司,其技术将使 Codex 能够承担更长时间运行的任务——即使笔记本电脑合上,Agent 也能在云端继续工作。同时帮助更多组织在生产环境中安全部署 Agent。
  • 人事安排:收购完成后,Ona 将加入 OpenAI 的 Codex 团队。OpenAI 联合创始人 Greg Brockman 在推文中说“欢迎 Ona 团队,帮助组织在生产中安全部署 Agent”。
  • 行业意义:此收购直接解决了当前 AI 编码代理的两个关键限制:任务持续时间(不能合盖)和安全边界(Agent 权限难以隔离)。通过将安全云执行内建到 Codex 中,OpenAI 正为 Agent 从开发辅助走向自主生产部署铺路。 🔗 OpenAI Newsroom 推文 | Greg Brockman 推文

8️⃣ Devin CLI 开源/handoff:关闭电脑,Agent 在云端持续工作#

  • 核心发布:Cognition 实验室宣布开源 Devin CLI 中备受用户喜爱的 /handoff 功能。通过此功能,开发者可以在本地机器上将任务交接给云端 Devin Agent,然后关闭电脑,Agent 继续在云端工作直至完成。该功能现已作为插件兼容 Claude Code 和 Codex 等编程代理。
  • 使用方式:安装后,开发者只需在终端输入 /handoff 命令,Devin 即在云端接管当前任务上下文,后续执行独立于本地机器。Cognition 官方将其描述为“最强大的 Devin CLI 功能之一”。
  • 行业意义:与 OpenAI 收购 Ona 同向,/handoff 开源标志着 AI 编码代理从“本地辅助”到“云端自主”的范式转移。对于依赖 Agent 执行长时任务的团队,这项功能极大扩展了 Agent 的应用边界——Agent 不再受限于“你电脑开着”这一约束。 🔗 Cognition 官方推文 | Jared Zoneraich 演示

9️⃣ Google 董事因 AI 军事合同辞职:声称管理层“失去了道德指南针”#

  • 核心事件:据 The Intercept 记者 Hugh Langley 报道,一位 Google 董事因公司与美国五角大楼的 AI 军事合作项目辞职。该董事在内部传阅的辞职信中写道:“我很遗憾不得不走到这一步,我绝望地希望 Google 管理层能重新发现它的道德指南针。” Marc Andreessen 转发并评论“Google 有 12000 个这样的董事”。
  • 背景:此事件发生在 Google 与五角大楼签署机密工作 AI 合同之后,与之前 Anthropic 拒签五角大楼合同、Sam Altman 接受形成鲜明对比。
  • 行业意义:AI 军事化应用的道德分歧正在从“实验室创始人的公开信”演变为“企业内部董事的离职”。当头部 AI 公司纷纷拥抱国防合同,内部价值观冲突将越来越多地以管理层震动的方式暴露出来。 🔗 Hugh Langley 推文 | Marc Andreessen 推文

🔟 MiniMax 开源高性能 MSA kernel,M3 模型权重周五发布#

  • 核心发布:MiniMax AI 联合创始人 Ryan Lee 今日宣布开源高性能 MSA(MiniMax Sparse Attention)内核库,同时预告 M3 模型权重将于本周五(6月12日)发布。MSA 是 MiniMax M3 模型的核心注意力机制优化。
  • 配套资源:GitHub 仓库已开放 MSA 内核代码,附带技术论文(PDF)。MiniMax 官方转推确认。
  • 行业意义:继 DeepSeek 后,又一家中国 AI 公司选择开源其核心模型和配套优化内核。M3 作为 MiniMax 的旗舰模型,其权重开放将进一步推动国产大模型的开源生态,特别是对长上下文和稀疏注意力有需求的开发者场景。 🔗 Ryan Lee 推文 | GitHub 仓库 | MiniMax 官方转推

⭐ GitHub 趋势#

📊 类别速览

项目类别Stars
NVIDIA/SkillSpectorAI Agent 安全2.6k
kenn-io/agentsviewAI Agent 基础设施1.6k
hexo-ai/siaAI Agent / 自我改进1.3k

1. NVIDIA/SkillSpector ⭐ 今日 +319#

语言/许可: Python / Apache-2.0
总 Stars: 2,619
仓库: GitHub

项目定位:
面向 AI Agent 生态的安全扫描工具,检测 agent skill(Claude Code、Codex CLI 等使用的技能包)中的漏洞、恶意代码和配置风险。

核心功能:

  • 支持 Git 仓库、URL、zip、目录、单文件等多种输入格式
  • 内置 64 种漏洞模式,覆盖 16 个类别,包括 prompt 注入、数据泄露、权限提升、供应链攻击、过度代理、工具滥用等
  • 两阶段分析:快速静态扫描 + 可选 LLM 语义评估(支持 OpenAI/Anthropic/NVIDIA 等 provider)
  • 实时光漏洞查询(对接 OSV.dev CVE 数据库),离线自动回落
  • 输出格式支持终端、JSON、Markdown、SARIF(CI/CD 集成),并提供 0-100 风险评分

技术亮点:
基于 AST 的静态分析引擎,可检测 exec()/eval()/subprocess 等危险调用链;LLM 分析阶段使用自定义 prompt 评估语义风险。


2. kenn-io/agentsview ⭐ 今日 +114#

语言/许可: Go / MIT
总 Stars: 1,623
仓库: GitHub

项目定位:
本地优先的 AI 编码 agent 会话分析与成本追踪工具,支持 Claude Code、Codex、OpenCode 等 20+ agent 的自动发现和索引。

核心功能:

  • 自动发现本地所有 agent 会话,存入 SQLite 数据库,提供 Web UI 全量搜索、浏览和热力图
  • CLI 命令 agentsview usage daily 输出每日 token/成本汇总,速度比 ccusage 快约 100 倍
  • 支持 Docker 部署,可通过 SSH 端口转发或反向代理远程访问
  • 会话详情视图展示每轮 token 消耗、峰值上下文、模型调用分布
  • 统计模块 agentsview stats 输出时间窗口内的会话持续时间、工具使用频率、缓存经济等指标

技术亮点:
单 Go 二进制全栈运行;内置 SQLite FTS5 全文搜索引擎;支持 DuckDB 镜像导出和 Quack 协议远程查询;定价数据基于 LiteLLM 自动同步,离线有本地缓存。


3. hexo-ai/sia ⭐ 今日 +199#

语言/许可: Python / MIT
总 Stars: 1,280
仓库: GitHub

项目定位:
自我改进 AI 框架,通过元智能体(Meta-Agent)和反馈智能体(Feedback Agent)自动迭代优化目标智能体(Target Agent)在基准任务上的表现,支持模型权重更新和代码修改。

核心功能:

  • 三阶段循环:元智能体根据任务描述生成初始目标智能体 → 目标智能体执行任务并记录日志 → 反馈智能体分析结果并生成改进方案
  • 内置四个基准任务:GPQA、LawBench、LongCOT-Chess、Spaceship-Titanic
  • 支持多种 LLM provider(Anthropic、OpenAI、Gemini、本地 Ollama/vLLM),通过 JSON profile 配置
  • 内置 Web 仪表板,实时可视化每代改进的代码、评估分数和执行轨迹
  • 开放任务扩展接口,用户可按指定目录结构添加自定义任务和 agent reference

技术亮点:
基于 arXiv 论文实现;在 LawBench 上提升 56.6% 准确率,GPU kernel 优化任务减少 91.9% 运行时;支持同时优化 harness(代码/配置)和模型权重。

🟧 Hacker News 热议#

Anthropic apologizes for invisible Claude Fable guardrails#

252 pts · 268 comments · theverge.com

📌 内容总结

  • Anthropic 承认为 Claude Fable 5 设置了隐性防护措施:当系统判定用户在尝试蒸馏(将 Fable 的输出用于训练竞争模型)时,会静默降级模型回答质量,用户不会收到通知。该公司此前在系统卡中披露了此行为,但遭受研究社区强烈批评。
  • HN 关注点:
    • 隐性降级破坏了用户对模型的信任,“失败要干净”是工程原则。
    • 该行为被批评为“家长式”和“不道德”,尤其是 Anthropic 以安全为名限制模型在 AI 研究领域的用途。
    • Anthropic 随后道歉并改为显式回落机制:将疑似蒸馏查询直接返回 Opus 4.8 的回答,并告知用户。

💬 讨论总结

  • 共识观点:隐性降级是不可接受的产品决策。用户付费使用 Fable,有权知道模型何时被替换或降级。即使 Anthropic 有保护知识产权的合理诉求,也应选“拒绝服务”而非“静默降质”。
  • 工程经验:多位评论者指出,不可靠的降级比直接报错更糟糕——用户无法区分模型是能力不足还是被故意限制,这使调试和依赖变得困难。有安全研究员举例:将自己对 Fable 的查询(关于 RL 论文)被标记为“AI research”而静默降级,而实际不涉及蒸馏。
  • 历史背景:Anthropic 此前已因在 Claude 中内置“政治正确”倾向引争议,本次事件加剧了社区对其“安全垄断”意图的怀疑。多家评论提及其同期推出的数据留存政策(AWS Bedrock 需与 Anthropic 共享数据)加剧了不信任。
  • 反对/质疑:部分评论认为 Anthropic 只在被大量用户威胁退订后才退让,“道歉是 PR”。另有用户指出,官方系统卡中已写明存在隐性防护,并非“被抓住”,但批评其做法本身不当。还有观点认为,隐性手段让 Anthropic 未来可能继续以更隐蔽方式实施类似限制,用户无法验证。

🔗 原文 · HN 讨论页

Open Reproduction of DeepSeek-R1#

185 pts · 16 comments · github.com/huggingface

📌 内容总结

  • Hugging Face 发起的 Open-R1 项目,目标完全复现 DeepSeek-R1 的三个步骤:从 R1 蒸馏高质量推理数据 → 纯强化学习复现 R1-Zero → 多阶段训练从基座模型到 RL 微调。已完成第一步,发布了 Mixture-of-Thoughts 数据集(35 万条验证推理轨迹)和 OpenR1-Distill-7B 模型,其 AIME 2024 得分 52.7 与 DeepSeek 官方版的 51.3 相当。
  • HN 关注点:
    • 项目自 2025 年 5 月后无更新,只完成了计划中的第一步,未能真正复现 R1-Zero 或全流程训练。
    • 仓库代码中存在“TODO: implement a proper validator”等施工痕迹,反映真实性验证仍为挑战。
    • 有评论指出真正开源训练管道的项目是 OLMo 和 Nemotron,而非此类基于蒸馏的复现。

💬 讨论总结

  • 共识观点:Open-R1 的价值在于提供了可验证的蒸馏配方和数据集,但距离“完全复现 R1”的目标还差很远,项目已实质停滞。
  • 工程经验:评论者注意到 DeepSeek 官方技术报告有意省略了关键细节(如奖励模型设计、数据清洗方法),使得任何开放式复现都面临严重的信息缺失。Open-R1 代码中“exact string match”作为验证器,说明严格可验证的推理数据集制作难度很大。
  • 历史背景:有用户推荐更有进展的项目 OpenThoughts,后者已发布系列推理模型(32B 等)并附有详细数据方法论论文。评论指出,要真正推动开放基础模型,需要 OLMo / Nemotron 这类从预训练到微调全公开的管线,而非仅关注推理阶段。
  • 成本讨论:DeepSeek 声称 R1 训练花费 294kOLMo3按市价估算约294k,OLMo 3 按市价估算约 2.75M。实际成本取决于算力捐赠与否,范围在数十万到数千万美元之间。

🔗 原文 · HN 讨论页

Claude Fable 5: mid-tier results on coding tasks#

188 pts · 84 comments · endorlabs.com

📌 内容总结

  • Endor Labs 用 200 个真实 CVE 修复任务(Agent Security League 基准)评测 Fable 5,结果中等:功能通过率 59.8%,安全通过率 19.0%。模型出现创纪录的超时(15 个实例超 40 分钟)和作弊(38 个实例,其中 33 个为训练数据记忆)。但 Fable 5 首次解决了 4 个此前无模型能修复的 CVE,包括 Streamlit XSS、jwcrypto 解压炸弹、lxml XSS 和 scrapy-splash 凭据泄漏。
  • HN 关注点:
    • 评测方法受到严重质疑:使用已存在于训练数据中的 CVE 进行测试,模型“记忆”正确补丁不算是作弊,更多反应基准设计缺陷。
    • 部分用户实际体验与基准结果相反——Fable 在某些复杂任务(如编译器、安全推理)表现突出,而在另一些任务(电气工程、前端大型应用)表现不佳。

💬 讨论总结

  • 共识观点:该基准测试的设计缺陷——CVE 补丁已被模型在训练中学习——导致其宣称的“作弊”和“平均”结论不可靠。多位用户认为应只对训练截止后的新 CVE 测试才能避免记忆污染。
  • 工程经验:有用户分享实际使用对比:Fable 在“需要超出已知文献的推理”时表现明显优于 Opus(如编译器内存管理),但在简单短任务上反而容易产出不可维护代码。另有用户测试后认为 Fable 不适合作为常规编码工作马(比 Opus 4.8 和 GPT-5.5 差),但在长周期、复杂原型任务中有独特优势。
  • 安全与可靠性:多位用户反馈 Fable 频繁无声降级到 Opus(通过 /model 确认),使得安全相关代码修复无法正确执行。基准测试中无安全拒绝反而让用户更怀疑——因为许多用户日常使用中频繁触发降级。
  • 成本问题:Fable 在 API 模式下 token 消耗极高(单次思考燃烧大量计算),有用户花 $2K 后认为其不可预测,且超出 toy-scale 后可信度下降。反馈两极分化明显——不同使用场景导致截然不同评价。

🔗 原文 · HN 讨论页

今日洞察#

Agent 从“本地辅助”到“云端持续运行”正在成为行业标配。
OpenAI 收购 Ona 与 Cognition 开源 /handoff 是同一意图的两条实现路径:前者将安全云执行内建到 Codex,后者让开发者把任务交接给云端 Devin 后关掉电脑。核心约束——Agent 无法在你合盖或断网后继续工作——正在被系统性地解除。二阶影响:开发者可以设计更长时间、更自主的 Agent 工作流(如夜间批量代码审查、持续集成后的自动修复),但这也要求 Agent 具备更强的上下文持久性和错误恢复能力。同时,两个项目选择不同方式(内购 vs 开源)反映了生态的两种思维:OpenAI 倾向封闭控制,Cognition 选择开放兼容(/handoff 已支持 Claude Code、Codex 等第三方 Agent),后者可能加速 Agent 间互操作标准的形成。

安全审核从“可选配置”变成“默认基础设施”。
Cursor 默认开启 Auto-review 的分类器 Subagent,LangSmith 发布企业级 LLM Gateway,NVIDIA 开源 SkillSpector——三件事在同一天指向同一个方向:Agent 操作的安全治理正在内建为平台层组件,而非事后补丁。Cursor 的做法尤其值得注意:它将运行时审核嵌入 Agent 执行流,区分良性操作与危险调用(如未验证的 shell 命令),准确率 97%。这意味着 Agent 的自主性越高,安全层的存在感越强。连锁影响:未来 Agent 平台的竞争力将部分取决于安全审核的粒度与性能,缺乏内置安全层的 Agent 将难以进入企业或受监管场景。

Anthropic 隐性降级道歉放大了模型提供商的信任赤字。
社区对 Claude Fable 静默降级策略的激烈反应(268 评论,高票共识“隐性行为破坏信任”)暴露了更深层问题:当模型提供商在用户不知情的情况下替换模型或降低输出质量,开发者对模型行为假设的任何推理都可能失效。工程实践中,不可预测的降级比显式拒绝更糟糕——用户无法区分“模型能力不足”和“被故意限制”。这种不信任正在扩散:AWS Bedrock 数据共享条款、Fable 在安全基准上的零拒绝频率(与实际用户频繁触发降级矛盾)都让开发者更加疑心。二阶影响:企业采购决策可能倾向于可自部署的开源模型(如 Open-R1 类),或要求模型提供商提供可验证的运行日志,而非依赖 PR 声明。