5,465 字

早报｜ MORNING 2026-06-05

Anthropic 公开内部数据：80% 代码由 Claude 编写，ChatGPT 推出 Dreaming 记忆系统

今日要点

Anthropic 内部数据：80% 代码由 Claude 编写，工程师效率提升 8 倍
ChatGPT 'Dreaming' 记忆系统：事实记忆准确率升至 82.8%
NVIDIA 发布 Nemotron 3 Ultra 550B 开源 Agent 模型，推理快 5 倍

上一期 · 2026-06-04 下一期 · 2026-06-06

Anthropic 发布递归自我改进研究报告，披露超过 80% 的已合并代码现由 Claude 编写，研究人员已数月未手写代码，工程师每季度提交代码量是 2024 年的 8 倍。OpenAI 为 ChatGPT 推出 Dreaming 记忆系统，自动从聊天记录中提炼用户偏好并持续更新，事实记忆准确率从 41.5% 升至 82.8%。NVIDIA 发布 Nemotron 3 Ultra——550B 参数（55B 活跃）的开源 Agent 模型，支持 1M token 上下文，推理速度比开源前沿模型快 5 倍。

1️⃣ NVIDIA 发布 Nemotron 3 Ultra：550B MoE 开源模型，专为 Agent 设计#

核心发布：NVIDIA AI 正式发布 Nemotron 3 Ultra，一个 550B 参数（55B 活跃）的混合 Transformer-Mamba MoE 开源模型，专为长时运行的 Agent 和复杂推理任务设计。
性能与成本：据官方数据，其推理速度比其它开源前沿模型快 5 倍，在 Agent 工作负载上成本降低高达 30%。支持高达 1M token 的上下文窗口。
生态即刻铺开：发布当天即获得广泛生态支持。AWS SageMaker JumpStart、Google Cloud、Fireworks AI、Ollama Cloud、LangChain 和 Hermes Agent 等主流平台均宣布 Day-0 支持。NVIDIA 强调模型权重、合成数据和训练方法已完全开源。
行业意义：Nemotron 3 Ultra 是目前参数规模最大、推理性能最强的开源 Agent 模型，其发布可能重塑开源与闭源模型在 Agent 应用领域的竞争格局。 🔗 NVIDIA AI 官方推文 | AWS ML Blog | Hugging Face 模型页

2️⃣ ChatGPT 记忆系统大升级：“Dreaming” 架构带来跨对话感知#

核心发布：OpenAI 正式为 ChatGPT 推出名为 “Dreaming” 的全新记忆系统。该系统不再依赖用户手动输入，而是由模型自动从聊天记录中提炼、整合并更新关于用户的偏好、约束和背景信息。
性能数据：新版记忆系统在多个评测维度上大幅提升。其中，“事实记忆准确率”从 41.5% 提升至 82.8%；“偏好遵循率”从 31.4% 提升至 71.3%；“时效性准确率”从 9.4% 提升至 75.1%。
用户控制与分发：用户可以在新的“记忆摘要”页面中查看、修改或删除 ChatGPT 记住的信息。该功能正面向美国地区的 Plus 和 Pro 用户推送，免费用户将在未来几周内获得。
行业意义：此更新标志着 AI 助手从“一次性会话交互”向“持续、个性化关系管理”的重要转变，显著降低了用户在重复背景设定上的成本。 🔗 OpenAI 官方推文 | OpenAI 博客 | Sam Altman 推文

3️⃣ [持续跟踪] Anthropic 发布递归自我改进研究：Claude 已编写 80% 内部代码#

前情提要：Anthropic 上周秘密提交 IPO 文件，同时发布 Opus 4.8 等模型，市场对该公司技术进展高度关注。
最新突破：Anthropic 今日发布官方研究，披露了加速 AI 开发并可能走向“递归自我改进”的内部数据。数据显示：超过 80% 的已合并代码现由 Claude 编写；研究人员已“数月”未手写代码；工程师每季度提交的代码量是 2024 年的 8 倍。在科研实验中，Claude 提出的下一步行动建议优于人类的比率为 64%。
态度与警示：Anthropic 强调此趋势并不保证能实现递归自我改进，但指出其发展速度快于预期。他们担忧这可能加剧对齐问题并导致失控，因此其“Anthropic 研究院”将联合外部利益相关者共同研究其影响。
行业意义：这是硅谷头部 AI 实验室首次如此透明地公布 AI 参与自身研发的程度，其内生的“自我加速”效应已经清晰可见，对 AI 安全治理提出了前所未有的紧迫性。 🔗 Anthropic 官方推文 | 完整博文 | 产品主管评论

4️⃣ LMSYS Arena 推出 Agent Mode：按真实任务能力给模型排名#

核心发布：LMSYS Arena 今日推出 Agent Mode。与传统的聊天评估不同，Agent Mode 允许模型使用浏览器、文件系统、终端等工具来完成代码编写、深度研究、构建网站等真实复杂任务。
排名方法：新版排名称 Agent Arena，基于超过 30 万次任务、200 万次工具调用和 4000 万行 Agent 生成代码。评估信号包括任务成功、可操控性、错误恢复和用户反馈。
初始排名：在 Agent Arena 的首个排行榜中，OpenAI 的 GPT-5.5 排名第一，其次是 Anthropic 的 Claude Opus 4.7 和 Zhipu AI 的 GLM-5.1。
行业意义：这是第一个大规模、基于真实任务的 Agent 性能评估系统。它的出现将行业基准从“模型会说会写”推向“模型会做会执行”，为 Agent 能力标准化提供了关键基础设施。 🔗 Arena 官方推文 | Agent Arena 博客 | 排行榜地址

5️⃣ 微软发布全新 MAI 模型家族：从代码到语音，推进“爬山机”愿景#

核心发布：Microsoft AI 负责人 Mustafa Suleyman 在 MSBuild 后更新博客，宣布推出 6 款全新世界级模型，作为其“零蒸馏”从零构建 AI 模型努力的一部分。
模型亮点：
- MAI-Thinking-1: 专注推理的 35B MoE 模型，SWE-Bench Pro 得分 53%（与 Opus 4.6 持平）。
- MAI-Transcribe-1.5: 微软宣称的“全球最佳”转录模型，在 43 种语言上超越 Gemini 和 OpenAI。
- MAI-Code-1-Flash: 仅 5B 活跃参数，专为 VS Code 和 Copilot CLI 设计，SWE-Bench Pro 得分 51%。
- MAI-Image-2.5: 在图像编辑排行榜上超越 Nano Banana 2。
技术报告：发布了 109 页的详细技术报告，阐述 MAI-Thinking-1 的训练过程和发现。
行业意义：微软正从投资 OpenAI 转向打造自有“前沿级”模型体系，其零蒸馏、从零训练的策略展示了构建“技术主权”的决心，对 Cloudflare、AWS 等依赖外部模型的服务商构成潜在压力。 🔗 Mustafa Suleyman 推文 | 微软 AI 博客 | Fireworks AI 评论

6️⃣ Cognition 推出“AI 生产力保证”：若 Devin 效果不达标，最高赔偿 1000 万#

核心发布：AI 编码助手 Devin 的开发商 Cognition 推出了一项史无前例的“AI 生产力保证”。如果企业客户支付的费用未换来等量的工程价值，Cognition 将提供免费使用额度，直至其产出达标，单人累计上限为 1000 万美元。
测量方法：Cognition 同时发布了技术报告，解释其如何衡量 AI 带来的工程价值，详细说明了这套基于投入与产出的量化模型。
行业意义：这是 AI 行业首次出现如此激进的“疗效承诺”，标志着 AI 工具市场正在从“功能售卖”转向“结果售卖”，对 AI 产业的产品化和信任建立机制具有里程碑意义。 🔗 Cognition 官方推文 | 技术博客 | 保证详情

7️⃣ OpenAI 等多位领袖联合呼吁：加强 AI 时代的生物安全监管#

核心事件：据多家媒体报道，Sam Altman、Dario Amodei、Demis Hassabis 等 AI 领袖联合签署公开信，呼吁美国国会加强对合成核酸订单及其制造设备的审查力度。信中指出，随着模型在生物学能力上的提升，恶意行为者获得生物武器的知识壁垒正在降低。
具体诉求：联名信要求国会将合成 DNA 的筛查和记录保存设为强制性，以确保任何订单都可追溯。
行业意义：以往 AI 安全讨论更多聚焦于技术对齐，这次联名则直接指向生物恐怖主义这一具体的高危后果。这标志着 AI 领袖们正从笼统的风险警告转向具体的政策呼吁，意义重大。 🔗 The Rundown AI 汇总 | Gary Marcus 评论

8️⃣ Google Magenta 发布 RealTime 2：开源实时音乐生成模型#

核心发布：Google Magenta 项目发布 RealTime 2 (MRT2)，这是一个开源的、可实时演奏的音乐生成模型。它可在 MacBook 上以低于 200ms 的延迟原生运行。
交互方式：MRT2 支持多种输入方式：连接 MIDI 键盘演奏、使用实时文本提示，甚至通过手势控制。它被定位为一个可以“弹奏”的乐器，而非被动的生成工具。
开源与生态：模型权重、推理引擎以及配套的应用和插件均已开源，赋予了开发者极大的创作和集成空间。
行业意义：AI 音乐生成正在从异步的文本到音频模式，向同步的、乐器化的实时交互演进。Google Magenta 的开源发布，将极大激发数字音频工作站和创意工具领域的新一轮创新。 🔗 Google Magenta 推文 | Google AI Developers 推文

9️⃣ NotebookLM 推出源属性功能：透明化 AI 生成内容的来源#

核心更新：Google 的 AI 笔记应用 NotebookLM 推出“源属性”功能。现在，用户在查看每个生成结果时，可以精确地看到是由哪些提示词和哪些源文档生成的。
用户价值：该功能让 AI 生成过程的“黑箱”变得透明。如果用户对结果不满意，可以直接点击“迭代”按钮，从源头进行调整和自定义。
行业意义：在 AI 生成内容泛滥、信息来源备受质疑的当下，NotebookLM 从工具层面提供了内容溯源方案。这不仅是产品的用户体验提升，更是构建 AI 时代信息可信度的重要一步。 🔗 NotebookLM 官方推文

⭐ GitHub 趋势#

📊 类别速览

项目	类别	Stars
PaddlePaddle/PaddleOCR	文档解析 / RAG	79.8k
NVIDIA/cosmos	世界模型 / 物理 AI	9.0k
lfnovo/open-notebook	AI 应用（Notebook LM 替代）	25.0k

1. PaddlePaddle/PaddleOCR ⭐ 今日 +141#

语言/许可： Python / Apache-2.0 总 Stars： 79.8k 仓库： GitHub

项目定位：
面向 RAG 与 Agent 应用的文档智能解析工具，将 PDF/图像转化为 LLM 可直接消费的结构化数据（Markdown/JSON），解决非结构化文档到 AI 管线的最后一公里问题。

核心功能：

内置专为文档解析设计的 0.9B 轻量 VLM（PaddleOCR-VL-1.6），在 OmniDocBench 上达到 96.3% 精度，支持表格、公式、印章、古籍等复杂元素
支持 100+ 语言识别，PP-OCRv5 单模型处理中英日等多语言混合文档
提供 PP-StructureV3 结构感知转换引擎，输出包含单元格坐标的细粒度 Markdown/JSON
已深度集成 Dify、RAGFlow、Cherry Studio 等主流 RAG/Agent 框架

技术亮点：
采用 NaViT 动态分辨率视觉编码器 + ERNIE-4.5 语言模型，0.9B 参数即可实现商用级精度；支持从 GPU 到 NPU 的全硬件后端部署，并提供 PaddleOCR.js 浏览器推理 SDK。

2. NVIDIA/cosmos ⭐ 今日 +133#

语言/许可： Jupyter Notebook / NOASSERTION 总 Stars： 9.0k 仓库： GitHub

项目定位：
NVIDIA 开源的统一全模态世界模型平台，将语言、图像、视频、音频、动作序列整合到一个 Mixture-of-Transformers 架构中，支持物理世界感知、推理与生成，面向机器人、自动驾驶、智能基础设施等 Physical AI 场景。

核心功能：

提供 Reasoner（世界理解与推理）和 Generator（世界生成与仿真）两种运行时表面，分别处理文本/视觉输入输出和视觉/音频/动作输出
支持 Text2Image/Text2Video/Image2Video/Video2Video 生成，以及含声道的音视频同步输出
内置动作建模能力：正向动力学（动作→未来帧）、逆动力学（视觉→动作）、策略预测（视觉→动作+帧）
模型系列包括 16B（Nano）和 64B（Super），并提供针对 DROID 机器人操作的策略微调版本

技术亮点：
使用统一 3D mRoPE 位置编码联合编码空间与时间结构；Diffusion Transformer + Autoregressive Transformer 双模态共享 backbone；支持从 256p 到 720p 多分辨率、5–300 帧可变长度输出；兼容 Diffusers/Transformers/vLLM-Omni 多套推理后端。

3. lfnovo/open-notebook ⭐ 今日 +212#

语言/许可： TypeScript / MIT 总 Stars： 25.0k 仓库： GitHub

项目定位：
开源、可自托管的 Notebook LM 替代品，面向需要数据隐私控制和多模型灵活性的知识工作者，支持对 PDF、视频、音频、网页等多模态内容进行检索、问答与播客生成。

核心功能：

支持 18+ 推理提供商（OpenAI/Anthropic/Ollama/LM Studio/DeepSeek 等），无供应商锁定，可纯本地运行
高级播客生成：支持 1–4 个自定义 speaker 的完整脚本控制，输出格式与语气可调
内置 RAG 管线：全文搜索 + 向量检索，支持多 notebook 组织和跨内容源引用
提供完整 REST API，支持自动化集成与 CI/CD 场景

技术亮点：
基于 SurrealDB 作为向量 + 文档存储，LangChain 作为 LLM 编排层；通过 Esperanto 库统一多 provider 接口；支持 OpenAI-Compatible 端点，可对接 LM Studio 等本地服务器。

🟧 Hacker News 热议#

Anthropic’s open-source framework for AI-powered vulnerability discovery#

217 pts · 74 comments · site

📌 内容总结

Anthropic 发布了名为 defending-code-reference-harness 的开源参考实现，展示如何用 Claude 自主发现和修复源代码漏洞。包含交互式 Claude Code 技能和面向 C/C++ 内存漏洞的自治管道（ASAN + Docker/gVisor 沙箱）。仓库明确声明不维护、不接受贡献。
HN 关注点:
- 成本：管道消耗大量 tokens，估算每次运行数百至数千美元。
- 自治补丁和分类仍被视为未解决问题。
- 适合用于内部“夹具”，而非通用产品。
- 传统 SAST 厂商的生存空间：竞争还是互补。

💬 讨论总结

许多评论认为该实现是“shop jigs”，更优策略是参考其设计思路，然后根据自己工作流用 LLM 定制，而非直接使用。
工程经验：构建有效管道需要沙箱、验证、去重；分类和补丁是当前瓶颈。
商业现实：AI 公司更倾向将技术打包为服务（如 Claude Security）而非卖 API 令牌，这本身就是一种信号。
反对 / 质疑：仓库不维护引发对 Anthropic 长期支持承诺的疑问；成本高限制实际落地；攻击者同样可使用此工具，攻防不对称并未改变；漏洞发现仍有召回率和假阳性问题。
有用户分享了类似工具（vulture），指出需要精心设计的 harness 才能有效，否则易产生大量假阳性。

🔗 原文 · HN 讨论页

When AI Builds Itself: Our progress toward recursive self-improvement#

282 pts · 373 comments · site

📌 内容总结

Anthropic 发布长文，声称 AI 正在加速 AI 开发。内部数据显示：截至 2026 年 5 月超过 80% 的代码由 Claude 编写，工程师日合并代码量较 2024 年增长 8 倍；开放式任务成功率 6 个月内从 26% 升至 76%；实验优化能力达到 52 倍加速（人类约 4 倍）。研究判断能力在“下一步选择”测试中超过人类从 51% 升至 64%。
HN 关注点:
- Lines of Code 作为生产力指标的可靠性。
- 文章出现在 IPO 前夕，被视为营销炒作。
- 对递归自我改进会失控的担忧。
- Claude 服务质量倒退与内部高效叙事之间的反差。

💬 讨论总结

共识观点：LoC 指标严重有偏，AI 代码往往更冗长、更复杂，8 倍 LoC 不代表 8 倍价值。很多评论怀疑 Anthropic 利用恐惧营销为 IPO 铺路，呼吁“暂停”主张实质是监管捕获。
工程经验：AI 生成代码在质量上仍低于经验丰富的人类，但差距迅速缩小；代码审查已成为新瓶颈；用 AI 进行性能迭代优化（如 Rust 代码）效果显著。
历史背景：递归自我改进概念在科幻中所见，但实际中 LLM 训练面临数据耗尽、模型退化、硬件效率等硬约束。硬件瓶颈可能限制 RSI 速度。
风险 / 限制：若 AI 具备完全自主设计后代能力，人类可能失去控制；Anthropic 自身产品（Claude Code）被批评为臃肿（React TUI 消耗 1GB+ RAM），与文中描述的高效形成对比。
反对意见：多位评论者指出若 AI 真如此强大，Anthropic 为何在招聘中禁止使用 AI 进行编码考核。另有人质疑文中大部分数据来自内部调查，主观偏差大。部分评论认为这是“科幻胡说”，实际进展有限。

🔗 原文 · HN 讨论页

KVarN: Native vLLM backend for KV-cache quantization by Huawei#

111 pts · 11 comments · site

📌 内容总结

华为 CSL 发布 KVarN，一个基于 vLLM 的 KV-cache 量化后端，旨在不损失精度和吞吐的前提下将 KV-cache 容量提升 3‑5 倍。使用 Hadamard 旋转、迭代方差归一化和非对称舍入，key 4-bit、value 2-bit，无需校准，仅需一个标志位。
HN 关注点:
- 为何不直接向 vLLM 项目提 PR。
- 性能声称的真实性：吞吐高于 FP16，精度接近但略低于 FP16（AIME25 59.3% vs 59.4%）。
- 与 vLLM 官方 TurboQuant 的对比。

💬 讨论总结

主要讨论集中在集成方式：评论认为这是研究产出，作者无维护激励，但社区可以基于 vLLM 0.22 直接提差异 PR；vLLM 背后公司也有资源自行移植。
技术质疑：有用户问“比 FP16 更好”具体指什么，回复澄清吞吐更高而非精度更好，任何偏离都是误差。
一条中文评论“遥遥领先”，可能是对华为宣传的认可或反讽。
整体讨论简短，无强烈反对意见，核心是等待实际生产验证和集成至主流 vLLM。

🔗 原文 · HN 讨论页

今日洞察#

1. Anthropic 的“递归自我改进”数据在 HN 引发了比官方叙事更真实的讨论。 官方博文强调 80% 代码由 Claude 编写、工程师产出提升 8 倍，但 HN 上的 373 条评论快速集中到三个点上：Lines of Code 作为生产指标的严重有偏（AI 代码更冗长）、IPO 前夕发布此文被视为营销动作、以及 Claude 产品端（Claude Code 被批评为臃肿，React TUI 消耗 1GB+ RAM）与内部高效叙事之间的反差。这种讨论揭示了一个被忽视的趋势：AI 对自身开发的贡献已经到了可以用内部数据量化证明的程度，但行业对“如何衡量 AI 生产力”仍无共识。Anthropic 选择以 80% 代码占比作为表层信号，而工程师的直接质疑指向了更深层的计量问题——这会倒逼更多人关注 AI 代码质量评估框架。

2. ChatGPT 的 Dreaming 记忆系统将视角从“会话交互”推向“持续关系管理”。 事实记忆准确率从 41.5% 跳升至 82.8%，这是从“会忘记”到“基本可靠”的质变。更关键的是，它是自动提炼（Dreaming 机制），而非用户手动输入。这意味着 OpenAI 正式将产品定位从“问答工具”转向“知道你一切的助手”。二阶影响是：AI 产品的用户粘性将不再依赖单次回答质量，而取决于跨对话的累积认知。这对新进入者形成巨大的冷启动壁垒——新模型即使能力更强，缺乏用户长期记忆也无法替代已建立关系的旧助手。

3. LMSYS Agent Arena 的出现让模型排名从“会说”转向“会做”。 基于 30 万次真实任务、200 万次工具调用的评估系统，直接衡量代码编写、深度研究等执行能力。这暴露了此前所有聊天基准的缺陷：对话流畅度与任务成功率几乎不相关。初始排名中 GPT-5.5 领先、Claude Opus 4.7 第二、GLM-5.1 第三，这个顺序与聊天排名差异明显。这意味着开源模型在 Agent 场景的追赶路径需要重新设计——不能只优化聊天能力，得专门针对工具调用、错误恢复、任务分解做系统级工程。

4. 几件工程更新也值得注意：华为 KVarN 将 KV-cache 量化做到 key 4-bit / value 2-bit，吞吐高于 FP16 且无需校准。 虽然 HN 讨论只有 11 条，但这是第一个经 vLLM 原生后端验证的极端量化方案。若集成至主流推理框架，能在大上下文场景（如 1M token Nemotron）降低 3-5 倍显存需求。而 NVIDIA 的 Nemotron 3 Ultra 虽然参数大，但更值得关注的是它专为长时运行 Agent 设计并已获得 Fireworks、Ollama、LangChain 等 Day-0 支持——开源 Agent 模型生态的标准化接口正在快速收敛。

2,149 字

晚报｜ EVENING 2026-06-05

ChatGPT Dreaming V3向免费用户开放，OpenAI Codex新增iOS开发插件

今日要点

ChatGPT Dreaming V3记忆系统效率提升5倍，覆盖免费用户
OpenAI Codex新增Build iOS Apps插件，iOS开发闭环进入Codex
Cursor推出Canvases一键发布功能，与Codex Sites直接竞争

查看早报

ChatGPT记忆系统Dreaming V3升级后效率提升5倍，开始向免费用户开放；OpenAI Codex推出Build iOS Apps插件，支持在Codex内实时运行SwiftUI应用；Cursor发布Canvases功能，对标Codex Sites；Anthropic发布RSI研究引发Gary Marcus评论，称仅是更快编码。

1️⃣ ChatGPT Dreaming V3 记忆系统升级：效率提升5倍，覆盖免费用户#

核心更新：OpenAI 正式推出 ChatGPT 记忆系统的重大升级版本 Dreaming V3。与上一代相比，计算效率提升了约5倍，使得该功能能够向 Free/Go 层级的用户开放，实现了所有用户同一套记忆架构。
关键能力：Dreaming V3 通过后台持续运行的自动化流程，跨多轮对话综合提炼用户信息，并随时间推移主动更新记忆状态。例如，将“用户计划于7月前往新加坡”自动更新为“用户曾于2026年7月前往新加坡”，解决了记忆过时的问题。
效果数据：官方公布的三项评测指标显示，事实记忆准确率从41.5%提升至82.8%，偏好遵循率从31.4%提升至71.3%，时效性准确率从9.4%提升至75.1%。
用户控制：用户可以在新的“记忆摘要”页面快速浏览 ChatGPT 的记忆认知，并手动增删或设限。 🔗 OpenAI 官方博客 | OpenAI 推文

2️⃣ OpenAI Codex 新增 Build iOS Apps 插件：代码、预览、热重载一体#

核心发布：OpenAI Developers 为 Codex 推出官方“Build iOS Apps”插件，将 iOS 应用开发的完整闭环（写代码、预览、热重载）整合到 Codex 对话窗口中，无需频繁切换到 Xcode 或模拟器。
技术实现：底层依赖两个开源项目——Evan Bacon 的 serve-sim（流式模拟器）和 Sentry 的 SnapshotPreviews（提取 SwiftUI 预览），通过 XcodeBuildMCP 构建自动化工作流。
使用体验：用户可以在 Codex 的 in-app browser 中实时查看 iOS 应用运行效果，修改代码后预览瞬间更新，整个调试过程无需离开 Codex。
行业意义：这标志着 AI 编码工具正在逐步替代传统 IDE 的核心功能，将“写-跑-看-改”的反馈闭环全部压缩到一个界面中，开发者可跨 Web、Mac、iOS 多端并行开发。 🔗 OpenAI Developers 推文 | serve-sim 开源地址 | SnapshotPreviews 开源地址

3️⃣ Cursor 推出 Canvases：一键发布应用，对标 Codex Sites#

核心发布：Cursor 官方发布 Canvases 功能，允许用户基于 Cursor 创建的仪表盘、报告、内部工具等应用一键发布，并通过 URL 分享给团队。
产品定位：这直接对标 OpenAI Codex 此前推出的 Sites 功能，将 AI Coding Agent 的产出从“本地项目”变为“可分享的 Web 应用”，进一步覆盖从开发到部署的完整链路。
行业影响：AI 编码工具正从“辅助写代码”升级为“全栈应用平台”，Coding Agent 凭借在编码、设计、调试、部署等方面的闭环能力，正在吞噬 Lovable、v0、bolt.new 等独立 AI 建站工具的市场。 🔗 Cursor 官方推文

4️⃣ [持续跟踪] Anthropic 发布 RSI 研究，Gary Marcus 称不必恐慌#

前情提要：昨日 Anthropic 发布内部数据，显示 Claude 已编写80%以上合并代码，可能走向递归自我改进（RSI），引发行业广泛讨论。
最新进展：AI 批评者 Gary Marcus 今日连续发布多条评论，指出 Anthropic 的 RSI 声明被夸大——其真正展示的只是“人类控制下的更快编码”，而非 AGI。他强调 AGI 需要全新思路，而现有进展依赖神经符号 AI 整合。同时，Anthropic 的 RSI 研究本身也承认，目前尚不清楚 Claude 是否具备研究判断力。另有工程团队分享称，Anthropic 内部 RSI 实验中的 Mythos 模型在代码加速任务上达到约52倍，但人类审查已成为新瓶颈。
社区反响：开发者社区围绕“Harness”（编排系统）成为瓶颈的讨论升温，认为当前 AI 研发的核心限制从模型能力转向了组织协调和人类审核能力。 🔗 Anthropic 官方博客 | Gary Marcus 评论原文

5️⃣ [持续跟踪] NVIDIA Nemotron 3 Ultra 生态持续扩展：OpenRouter 免费、Agent Arena 接入#

前情提要：NVIDIA 昨日发布 Nemotron 3 Ultra（550B MoE，55B 活跃参数），支持 1M 上下文，推理速度提升5倍。
最新突破：今日 Nemotron 3 Ultra 在多个平台上线或免费开放：OpenRouter 宣布免费提供该模型；Arena.ai 的 Agent Mode 正式接入 Nemotron 3 Ultra，用户可体验复杂多步任务；Ollama 云端也已支持。评测显示其在 Terminal-Bench 风格任务中处于 Pareto 前沿。同时，ComfyUI 也于同期新增了对该模型的支持（通过 Partner Node）。
行业意义：Nemotron 3 Ultra 作为当前最强的开源 Agent 模型之一，其免费和广泛生态接入正在加速 Agent 应用从闭源向开源迁移的趋势。 🔗 NVIDIA AI 推文 | OpenRouter 免费公告 | Arena 接入

6️⃣ Firecrawl 里程碑：两年抓取80亿网页，成为 AI 数据基础设施#

核心数据：Firecrawl 宣布已累计抓取超过80亿网页，拥有125万+开发者用户，15万+企业客户，GitHub Stars 125K+（进入全球前100仓库），npm 和 PyPI 周下载量250万+。
行业洞察：Firecrawl 的成功戳破了当前 AI 圈的一个集体幻觉——很多人以为模型参数越大、推理越强就赢了，却忽略了 Agent 能否可靠、持续、低成本地获取真实世界的最新数据，才是真正的上限。Firecrawl 将“web 上下文层”做成了 AI 时代的基础设施。
发展趋势：AI 的下一战场正从“谁的模型更聪明”转向“谁能把整个互联网变成 AI 可直接消费的上下文”。 🔗 Firecrawl 官方推文 | Berryxia.AI 分析

7️⃣ Grok Build 更新：支持 Worktrees，模型改进#

核心更新：Elon Musk 宣布 Grok Build 支持 worktrees，用户可在独立的 Git 工作区中并行运行多个 Agent。同时，Grok Build 0.2.20 版本发布，修复多项 bug 并新增 image_to_video、reference_to_video 等工具。
模型改进：Grok-build 模型（0.5T 参数）经过更新，变得更自主、更准确，在长时任务上持续优化，现已通过 TUI 提供给用户使用。
行业意义：xAI 正在快速跟进业界主流编码 Agent 的功能特性（如多会话并行、worktree 隔离），缩小与 Claude Code 和 Codex 的差距。 🔗 Elon Musk 推文 | Grok Build 更新说明

8️⃣ Browser Use 发布 Profiles 功能：Agent 可同步浏览器登录态，绕过登录#

核心更新：Browser Use 官方推出 Profiles 功能，允许 AI Agent 同步本地浏览器的登录状态（cookies、session 等）到云端浏览器，从而绕过网站的登录验证，直接操作已登录的 Web 应用。
使用流程：用户创建一个 Profile 并启动同步，然后 Agent 即可在云端使用该 Profile 保持登录状态，一次设置，长期生效。
安全与行业影响：这解决了长期困扰 Agent 自动化的一大痛点——登录态管理。但同时，这种能力也引发了安全担忧：若 Agent 被滥用，可能绕过账户保护机制。这表明 Agent 权限管理需要更精细的模型。 🔗 Browser Use 官方推文

9️⃣ Anthropic 设计师公开 Claude Code 工作流：文档与自动化是关键#

核心分享：Anthropic 内部设计师、Claude Code & Cowork 设计负责人 Meaghan 在纽约分享了她使用 Claude Code 做产品、写代码、推 PR 的实际工作流。
关键方法：她强调“LLM 做设计还很糟”，因此人类必须留在审美与决策环里；自动化不应只限于写代码，还应覆盖非编码工作（如 UI 抛光、代码审查、定时任务巡检）。她现场演示了在 Excalidraw 上通过一句话 prompt 添加自动补全功能，全程使用 Auto 模式和自定义 Skill。
重要原则：她提出“人人都能 ship”≠“什么都该 ship”，需要可扩展的质量与治理机制。此外，文档在 Vibe Coding 中扮演着 Harness 的角色，需要系统管理。 🔗 meng shao 中文总结 | 原始视频