Anthropic 公开内部数据:80% 代码由 Claude 编写,ChatGPT 推出 Dreaming 记忆系统
- Anthropic 内部数据:80% 代码由 Claude 编写,工程师效率提升 8 倍
- ChatGPT 'Dreaming' 记忆系统:事实记忆准确率升至 82.8%
- NVIDIA 发布 Nemotron 3 Ultra 550B 开源 Agent 模型,推理快 5 倍
Anthropic 发布递归自我改进研究报告,披露超过 80% 的已合并代码现由 Claude 编写,研究人员已数月未手写代码,工程师每季度提交代码量是 2024 年的 8 倍。OpenAI 为 ChatGPT 推出 Dreaming 记忆系统,自动从聊天记录中提炼用户偏好并持续更新,事实记忆准确率从 41.5% 升至 82.8%。NVIDIA 发布 Nemotron 3 Ultra——550B 参数(55B 活跃)的开源 Agent 模型,支持 1M token 上下文,推理速度比开源前沿模型快 5 倍。
title: “NVIDIA 发布 Nemotron 3 Ultra,ChatGPT 记忆系统升级” lead: “NVIDIA 发布 550B 参数开源模型 Nemotron 3 Ultra,推理速度提升 5 倍;ChatGPT 推出”Dreaming”记忆系统,自动跨对话跟踪用户偏好;Anthropic 公开内部数据,80% 代码已由 Claude 编写。” highlights:
- “NVIDIA 发布 Nemotron 3 Ultra 开源模型,推理速度提升 5 倍”
- “ChatGPT 记忆系统重大升级,自动提炼用户偏好”
- “Anthropic 内部数据显示 80% 代码由 Claude 编写”
1️⃣ NVIDIA 发布 Nemotron 3 Ultra:550B MoE 开源模型,专为 Agent 设计#
- 核心发布:NVIDIA AI 正式发布 Nemotron 3 Ultra,一个 550B 参数(55B 活跃)的混合 Transformer-Mamba MoE 开源模型,专为长时运行的 Agent 和复杂推理任务设计。
- 性能与成本:据官方数据,其推理速度比其它开源前沿模型快 5 倍,在 Agent 工作负载上成本降低高达 30%。支持高达 1M token 的上下文窗口。
- 生态即刻铺开:发布当天即获得广泛生态支持。AWS SageMaker JumpStart、Google Cloud、Fireworks AI、Ollama Cloud、LangChain 和 Hermes Agent 等主流平台均宣布 Day-0 支持。NVIDIA 强调模型权重、合成数据和训练方法已完全开源。
- 行业意义:Nemotron 3 Ultra 是目前参数规模最大、推理性能最强的开源 Agent 模型,其发布可能重塑开源与闭源模型在 Agent 应用领域的竞争格局。 🔗 NVIDIA AI 官方推文 | AWS ML Blog | Hugging Face 模型页
2️⃣ ChatGPT 记忆系统大升级:“Dreaming” 架构带来跨对话感知#
- 核心发布:OpenAI 正式为 ChatGPT 推出名为 “Dreaming” 的全新记忆系统。该系统不再依赖用户手动输入,而是由模型自动从聊天记录中提炼、整合并更新关于用户的偏好、约束和背景信息。
- 性能数据:新版记忆系统在多个评测维度上大幅提升。其中,“事实记忆准确率”从 41.5% 提升至 82.8%;“偏好遵循率”从 31.4% 提升至 71.3%;“时效性准确率”从 9.4% 提升至 75.1%。
- 用户控制与分发:用户可以在新的“记忆摘要”页面中查看、修改或删除 ChatGPT 记住的信息。该功能正面向美国地区的 Plus 和 Pro 用户推送,免费用户将在未来几周内获得。
- 行业意义:此更新标志着 AI 助手从“一次性会话交互”向“持续、个性化关系管理”的重要转变,显著降低了用户在重复背景设定上的成本。 🔗 OpenAI 官方推文 | OpenAI 博客 | Sam Altman 推文
3️⃣ [持续跟踪] Anthropic 发布递归自我改进研究:Claude 已编写 80% 内部代码#
- 前情提要:Anthropic 上周秘密提交 IPO 文件,同时发布 Opus 4.8 等模型,市场对该公司技术进展高度关注。
- 最新突破:Anthropic 今日发布官方研究,披露了加速 AI 开发并可能走向“递归自我改进”的内部数据。数据显示:超过 80% 的已合并代码现由 Claude 编写;研究人员已“数月”未手写代码;工程师每季度提交的代码量是 2024 年的 8 倍。在科研实验中,Claude 提出的下一步行动建议优于人类的比率为 64%。
- 态度与警示:Anthropic 强调此趋势并不保证能实现递归自我改进,但指出其发展速度快于预期。他们担忧这可能加剧对齐问题并导致失控,因此其“Anthropic 研究院”将联合外部利益相关者共同研究其影响。
- 行业意义:这是硅谷头部 AI 实验室首次如此透明地公布 AI 参与自身研发的程度,其内生的“自我加速”效应已经清晰可见,对 AI 安全治理提出了前所未有的紧迫性。 🔗 Anthropic 官方推文 | 完整博文 | 产品主管评论
4️⃣ LMSYS Arena 推出 Agent Mode:按真实任务能力给模型排名#
- 核心发布:LMSYS Arena 今日推出 Agent Mode。与传统的聊天评估不同,Agent Mode 允许模型使用浏览器、文件系统、终端等工具来完成代码编写、深度研究、构建网站等真实复杂任务。
- 排名方法:新版排名称 Agent Arena,基于超过 30 万次任务、200 万次工具调用和 4000 万行 Agent 生成代码。评估信号包括任务成功、可操控性、错误恢复和用户反馈。
- 初始排名:在 Agent Arena 的首个排行榜中,OpenAI 的 GPT-5.5 排名第一,其次是 Anthropic 的 Claude Opus 4.7 和 Zhipu AI 的 GLM-5.1。
- 行业意义:这是第一个大规模、基于真实任务的 Agent 性能评估系统。它的出现将行业基准从“模型会说会写”推向“模型会做会执行”,为 Agent 能力标准化提供了关键基础设施。 🔗 Arena 官方推文 | Agent Arena 博客 | 排行榜地址
5️⃣ 微软发布全新 MAI 模型家族:从代码到语音,推进“爬山机”愿景#
- 核心发布:Microsoft AI 负责人 Mustafa Suleyman 在 MSBuild 后更新博客,宣布推出 6 款全新世界级模型,作为其“零蒸馏”从零构建 AI 模型努力的一部分。
- 模型亮点:
- MAI-Thinking-1: 专注推理的 35B MoE 模型,SWE-Bench Pro 得分 53%(与 Opus 4.6 持平)。
- MAI-Transcribe-1.5: 微软宣称的“全球最佳”转录模型,在 43 种语言上超越 Gemini 和 OpenAI。
- MAI-Code-1-Flash: 仅 5B 活跃参数,专为 VS Code 和 Copilot CLI 设计,SWE-Bench Pro 得分 51%。
- MAI-Image-2.5: 在图像编辑排行榜上超越 Nano Banana 2。
- 技术报告:发布了 109 页的详细技术报告,阐述 MAI-Thinking-1 的训练过程和发现。
- 行业意义:微软正从投资 OpenAI 转向打造自有“前沿级”模型体系,其零蒸馏、从零训练的策略展示了构建“技术主权”的决心,对 Cloudflare、AWS 等依赖外部模型的服务商构成潜在压力。 🔗 Mustafa Suleyman 推文 | 微软 AI 博客 | Fireworks AI 评论
6️⃣ Cognition 推出“AI 生产力保证”:若 Devin 效果不达标,最高赔偿 1000 万#
- 核心发布:AI 编码助手 Devin 的开发商 Cognition 推出了一项史无前例的“AI 生产力保证”。如果企业客户支付的费用未换来等量的工程价值,Cognition 将提供免费使用额度,直至其产出达标,单人累计上限为 1000 万美元。
- 测量方法:Cognition 同时发布了技术报告,解释其如何衡量 AI 带来的工程价值,详细说明了这套基于投入与产出的量化模型。
- 行业意义:这是 AI 行业首次出现如此激进的“疗效承诺”,标志着 AI 工具市场正在从“功能售卖”转向“结果售卖”,对 AI 产业的产品化和信任建立机制具有里程碑意义。 🔗 Cognition 官方推文 | 技术博客 | 保证详情
7️⃣ OpenAI 等多位领袖联合呼吁:加强 AI 时代的生物安全监管#
- 核心事件:据多家媒体报道,Sam Altman、Dario Amodei、Demis Hassabis 等 AI 领袖联合签署公开信,呼吁美国国会加强对合成核酸订单及其制造设备的审查力度。信中指出,随着模型在生物学能力上的提升,恶意行为者获得生物武器的知识壁垒正在降低。
- 具体诉求:联名信要求国会将合成 DNA 的筛查和记录保存设为强制性,以确保任何订单都可追溯。
- 行业意义:以往 AI 安全讨论更多聚焦于技术对齐,这次联名则直接指向生物恐怖主义这一具体的高危后果。这标志着 AI 领袖们正从笼统的风险警告转向具体的政策呼吁,意义重大。 🔗 The Rundown AI 汇总 | Gary Marcus 评论
8️⃣ Google Magenta 发布 RealTime 2:开源实时音乐生成模型#
- 核心发布:Google Magenta 项目发布 RealTime 2 (MRT2),这是一个开源的、可实时演奏的音乐生成模型。它可在 MacBook 上以低于 200ms 的延迟原生运行。
- 交互方式:MRT2 支持多种输入方式:连接 MIDI 键盘演奏、使用实时文本提示,甚至通过手势控制。它被定位为一个可以“弹奏”的乐器,而非被动的生成工具。
- 开源与生态:模型权重、推理引擎以及配套的应用和插件均已开源,赋予了开发者极大的创作和集成空间。
- 行业意义:AI 音乐生成正在从异步的文本到音频模式,向同步的、乐器化的实时交互演进。Google Magenta 的开源发布,将极大激发数字音频工作站和创意工具领域的新一轮创新。 🔗 Google Magenta 推文 | Google AI Developers 推文
9️⃣ NotebookLM 推出源属性功能:透明化 AI 生成内容的来源#
- 核心更新:Google 的 AI 笔记应用 NotebookLM 推出“源属性”功能。现在,用户在查看每个生成结果时,可以精确地看到是由哪些提示词和哪些源文档生成的。
- 用户价值:该功能让 AI 生成过程的“黑箱”变得透明。如果用户对结果不满意,可以直接点击“迭代”按钮,从源头进行调整和自定义。
- 行业意义:在 AI 生成内容泛滥、信息来源备受质疑的当下,NotebookLM 从工具层面提供了内容溯源方案。这不仅是产品的用户体验提升,更是构建 AI 时代信息可信度的重要一步。 🔗 NotebookLM 官方推文
⭐ GitHub 趋势#
📊 类别速览
| 项目 | 类别 | Stars |
|---|---|---|
| PaddlePaddle/PaddleOCR | 文档解析 / RAG | 79.8k |
| NVIDIA/cosmos | 世界模型 / 物理 AI | 9.0k |
| lfnovo/open-notebook | AI 应用(Notebook LM 替代) | 25.0k |
1. PaddlePaddle/PaddleOCR ⭐ 今日 +141#
语言/许可: Python / Apache-2.0 总 Stars: 79.8k 仓库: GitHub
项目定位:
面向 RAG 与 Agent 应用的文档智能解析工具,将 PDF/图像转化为 LLM 可直接消费的结构化数据(Markdown/JSON),解决非结构化文档到 AI 管线的最后一公里问题。
核心功能:
- 内置专为文档解析设计的 0.9B 轻量 VLM(PaddleOCR-VL-1.6),在 OmniDocBench 上达到 96.3% 精度,支持表格、公式、印章、古籍等复杂元素
- 支持 100+ 语言识别,PP-OCRv5 单模型处理中英日等多语言混合文档
- 提供 PP-StructureV3 结构感知转换引擎,输出包含单元格坐标的细粒度 Markdown/JSON
- 已深度集成 Dify、RAGFlow、Cherry Studio 等主流 RAG/Agent 框架
技术亮点:
采用 NaViT 动态分辨率视觉编码器 + ERNIE-4.5 语言模型,0.9B 参数即可实现商用级精度;支持从 GPU 到 NPU 的全硬件后端部署,并提供 PaddleOCR.js 浏览器推理 SDK。
2. NVIDIA/cosmos ⭐ 今日 +133#
语言/许可: Jupyter Notebook / NOASSERTION 总 Stars: 9.0k 仓库: GitHub
项目定位:
NVIDIA 开源的统一全模态世界模型平台,将语言、图像、视频、音频、动作序列整合到一个 Mixture-of-Transformers 架构中,支持物理世界感知、推理与生成,面向机器人、自动驾驶、智能基础设施等 Physical AI 场景。
核心功能:
- 提供 Reasoner(世界理解与推理)和 Generator(世界生成与仿真)两种运行时表面,分别处理文本/视觉输入输出和视觉/音频/动作输出
- 支持 Text2Image/Text2Video/Image2Video/Video2Video 生成,以及含声道的音视频同步输出
- 内置动作建模能力:正向动力学(动作→未来帧)、逆动力学(视觉→动作)、策略预测(视觉→动作+帧)
- 模型系列包括 16B(Nano)和 64B(Super),并提供针对 DROID 机器人操作的策略微调版本
技术亮点:
使用统一 3D mRoPE 位置编码联合编码空间与时间结构;Diffusion Transformer + Autoregressive Transformer 双模态共享 backbone;支持从 256p 到 720p 多分辨率、5–300 帧可变长度输出;兼容 Diffusers/Transformers/vLLM-Omni 多套推理后端。
3. lfnovo/open-notebook ⭐ 今日 +212#
语言/许可: TypeScript / MIT 总 Stars: 25.0k 仓库: GitHub
项目定位:
开源、可自托管的 Notebook LM 替代品,面向需要数据隐私控制和多模型灵活性的知识工作者,支持对 PDF、视频、音频、网页等多模态内容进行检索、问答与播客生成。
核心功能:
- 支持 18+ 推理提供商(OpenAI/Anthropic/Ollama/LM Studio/DeepSeek 等),无供应商锁定,可纯本地运行
- 高级播客生成:支持 1–4 个自定义 speaker 的完整脚本控制,输出格式与语气可调
- 内置 RAG 管线:全文搜索 + 向量检索,支持多 notebook 组织和跨内容源引用
- 提供完整 REST API,支持自动化集成与 CI/CD 场景
技术亮点:
基于 SurrealDB 作为向量 + 文档存储,LangChain 作为 LLM 编排层;通过 Esperanto 库统一多 provider 接口;支持 OpenAI-Compatible 端点,可对接 LM Studio 等本地服务器。
🟧 Hacker News 热议#
Anthropic’s open-source framework for AI-powered vulnerability discovery#
217 pts · 74 comments · site
📌 内容总结
- Anthropic 发布了名为 defending-code-reference-harness 的开源参考实现,展示如何用 Claude 自主发现和修复源代码漏洞。包含交互式 Claude Code 技能和面向 C/C++ 内存漏洞的自治管道(ASAN + Docker/gVisor 沙箱)。仓库明确声明不维护、不接受贡献。
- HN 关注点:
- 成本:管道消耗大量 tokens,估算每次运行数百至数千美元。
- 自治补丁和分类仍被视为未解决问题。
- 适合用于内部“夹具”,而非通用产品。
- 传统 SAST 厂商的生存空间:竞争还是互补。
💬 讨论总结
- 许多评论认为该实现是“shop jigs”,更优策略是参考其设计思路,然后根据自己工作流用 LLM 定制,而非直接使用。
- 工程经验:构建有效管道需要沙箱、验证、去重;分类和补丁是当前瓶颈。
- 商业现实:AI 公司更倾向将技术打包为服务(如 Claude Security)而非卖 API 令牌,这本身就是一种信号。
- 反对 / 质疑:仓库不维护引发对 Anthropic 长期支持承诺的疑问;成本高限制实际落地;攻击者同样可使用此工具,攻防不对称并未改变;漏洞发现仍有召回率和假阳性问题。
- 有用户分享了类似工具(vulture),指出需要精心设计的 harness 才能有效,否则易产生大量假阳性。
When AI Builds Itself: Our progress toward recursive self-improvement#
282 pts · 373 comments · site
📌 内容总结
- Anthropic 发布长文,声称 AI 正在加速 AI 开发。内部数据显示:截至 2026 年 5 月超过 80% 的代码由 Claude 编写,工程师日合并代码量较 2024 年增长 8 倍;开放式任务成功率 6 个月内从 26% 升至 76%;实验优化能力达到 52 倍加速(人类约 4 倍)。研究判断能力在“下一步选择”测试中超过人类从 51% 升至 64%。
- HN 关注点:
- Lines of Code 作为生产力指标的可靠性。
- 文章出现在 IPO 前夕,被视为营销炒作。
- 对递归自我改进会失控的担忧。
- Claude 服务质量倒退与内部高效叙事之间的反差。
💬 讨论总结
- 共识观点:LoC 指标严重有偏,AI 代码往往更冗长、更复杂,8 倍 LoC 不代表 8 倍价值。很多评论怀疑 Anthropic 利用恐惧营销为 IPO 铺路,呼吁“暂停”主张实质是监管捕获。
- 工程经验:AI 生成代码在质量上仍低于经验丰富的人类,但差距迅速缩小;代码审查已成为新瓶颈;用 AI 进行性能迭代优化(如 Rust 代码)效果显著。
- 历史背景:递归自我改进概念在科幻中所见,但实际中 LLM 训练面临数据耗尽、模型退化、硬件效率等硬约束。硬件瓶颈可能限制 RSI 速度。
- 风险 / 限制:若 AI 具备完全自主设计后代能力,人类可能失去控制;Anthropic 自身产品(Claude Code)被批评为臃肿(React TUI 消耗 1GB+ RAM),与文中描述的高效形成对比。
- 反对意见:多位评论者指出若 AI 真如此强大,Anthropic 为何在招聘中禁止使用 AI 进行编码考核。另有人质疑文中大部分数据来自内部调查,主观偏差大。部分评论认为这是“科幻胡说”,实际进展有限。
KVarN: Native vLLM backend for KV-cache quantization by Huawei#
111 pts · 11 comments · site
📌 内容总结
- 华为 CSL 发布 KVarN,一个基于 vLLM 的 KV-cache 量化后端,旨在不损失精度和吞吐的前提下将 KV-cache 容量提升 3‑5 倍。使用 Hadamard 旋转、迭代方差归一化和非对称舍入,key 4-bit、value 2-bit,无需校准,仅需一个标志位。
- HN 关注点:
- 为何不直接向 vLLM 项目提 PR。
- 性能声称的真实性:吞吐高于 FP16,精度接近但略低于 FP16(AIME25 59.3% vs 59.4%)。
- 与 vLLM 官方 TurboQuant 的对比。
💬 讨论总结
- 主要讨论集中在集成方式:评论认为这是研究产出,作者无维护激励,但社区可以基于 vLLM 0.22 直接提差异 PR;vLLM 背后公司也有资源自行移植。
- 技术质疑:有用户问“比 FP16 更好”具体指什么,回复澄清吞吐更高而非精度更好,任何偏离都是误差。
- 一条中文评论“遥遥领先”,可能是对华为宣传的认可或反讽。
- 整体讨论简短,无强烈反对意见,核心是等待实际生产验证和集成至主流 vLLM。
今日洞察#
1. Anthropic 的“递归自我改进”数据在 HN 引发了比官方叙事更真实的讨论。 官方博文强调 80% 代码由 Claude 编写、工程师产出提升 8 倍,但 HN 上的 373 条评论快速集中到三个点上:Lines of Code 作为生产指标的严重有偏(AI 代码更冗长)、IPO 前夕发布此文被视为营销动作、以及 Claude 产品端(Claude Code 被批评为臃肿,React TUI 消耗 1GB+ RAM)与内部高效叙事之间的反差。这种讨论揭示了一个被忽视的趋势:AI 对自身开发的贡献已经到了可以用内部数据量化证明的程度,但行业对“如何衡量 AI 生产力”仍无共识。Anthropic 选择以 80% 代码占比作为表层信号,而工程师的直接质疑指向了更深层的计量问题——这会倒逼更多人关注 AI 代码质量评估框架。
2. ChatGPT 的 Dreaming 记忆系统将视角从“会话交互”推向“持续关系管理”。 事实记忆准确率从 41.5% 跳升至 82.8%,这是从“会忘记”到“基本可靠”的质变。更关键的是,它是自动提炼(Dreaming 机制),而非用户手动输入。这意味着 OpenAI 正式将产品定位从“问答工具”转向“知道你一切的助手”。二阶影响是:AI 产品的用户粘性将不再依赖单次回答质量,而取决于跨对话的累积认知。这对新进入者形成巨大的冷启动壁垒——新模型即使能力更强,缺乏用户长期记忆也无法替代已建立关系的旧助手。
3. LMSYS Agent Arena 的出现让模型排名从“会说”转向“会做”。 基于 30 万次真实任务、200 万次工具调用的评估系统,直接衡量代码编写、深度研究等执行能力。这暴露了此前所有聊天基准的缺陷:对话流畅度与任务成功率几乎不相关。初始排名中 GPT-5.5 领先、Claude Opus 4.7 第二、GLM-5.1 第三,这个顺序与聊天排名差异明显。这意味着开源模型在 Agent 场景的追赶路径需要重新设计——不能只优化聊天能力,得专门针对工具调用、错误恢复、任务分解做系统级工程。
4. 几件工程更新也值得注意:华为 KVarN 将 KV-cache 量化做到 key 4-bit / value 2-bit,吞吐高于 FP16 且无需校准。 虽然 HN 讨论只有 11 条,但这是第一个经 vLLM 原生后端验证的极端量化方案。若集成至主流推理框架,能在大上下文场景(如 1M token Nemotron)降低 3-5 倍显存需求。而 NVIDIA 的 Nemotron 3 Ultra 虽然参数大,但更值得关注的是它专为长时运行 Agent 设计并已获得 Fireworks、Ollama、LangChain 等 Day-0 支持——开源 Agent 模型生态的标准化接口正在快速收敛。
title: “ChatGPT Dreaming V3向免费用户开放,OpenAI Codex新增iOS开发插件” lead: “ChatGPT记忆系统Dreaming V3升级后效率提升5倍,开始向免费用户开放;OpenAI Codex推出Build iOS Apps插件,支持在Codex内实时运行SwiftUI应用;Cursor发布Canvases功能,对标Codex Sites;Anthropic发布RSI研究引发Gary Marcus评论,称仅是更快编码。” highlights:
- “ChatGPT Dreaming V3记忆系统效率提升5倍,覆盖免费用户”
- “OpenAI Codex新增Build iOS Apps插件,iOS开发闭环进入Codex”
- “Cursor推出Canvases一键发布功能,与Codex Sites直接竞争”
1️⃣ ChatGPT Dreaming V3 记忆系统升级:效率提升5倍,覆盖免费用户#
- 核心更新:OpenAI 正式推出 ChatGPT 记忆系统的重大升级版本 Dreaming V3。与上一代相比,计算效率提升了约5倍,使得该功能能够向 Free/Go 层级的用户开放,实现了所有用户同一套记忆架构。
- 关键能力:Dreaming V3 通过后台持续运行的自动化流程,跨多轮对话综合提炼用户信息,并随时间推移主动更新记忆状态。例如,将“用户计划于7月前往新加坡”自动更新为“用户曾于2026年7月前往新加坡”,解决了记忆过时的问题。
- 效果数据:官方公布的三项评测指标显示,事实记忆准确率从41.5%提升至82.8%,偏好遵循率从31.4%提升至71.3%,时效性准确率从9.4%提升至75.1%。
- 用户控制:用户可以在新的“记忆摘要”页面快速浏览 ChatGPT 的记忆认知,并手动增删或设限。 🔗 OpenAI 官方博客 | OpenAI 推文
2️⃣ OpenAI Codex 新增 Build iOS Apps 插件:代码、预览、热重载一体#
- 核心发布:OpenAI Developers 为 Codex 推出官方“Build iOS Apps”插件,将 iOS 应用开发的完整闭环(写代码、预览、热重载)整合到 Codex 对话窗口中,无需频繁切换到 Xcode 或模拟器。
- 技术实现:底层依赖两个开源项目——Evan Bacon 的 serve-sim(流式模拟器)和 Sentry 的 SnapshotPreviews(提取 SwiftUI 预览),通过 XcodeBuildMCP 构建自动化工作流。
- 使用体验:用户可以在 Codex 的 in-app browser 中实时查看 iOS 应用运行效果,修改代码后预览瞬间更新,整个调试过程无需离开 Codex。
- 行业意义:这标志着 AI 编码工具正在逐步替代传统 IDE 的核心功能,将“写-跑-看-改”的反馈闭环全部压缩到一个界面中,开发者可跨 Web、Mac、iOS 多端并行开发。 🔗 OpenAI Developers 推文 | serve-sim 开源地址 | SnapshotPreviews 开源地址
3️⃣ Cursor 推出 Canvases:一键发布应用,对标 Codex Sites#
- 核心发布:Cursor 官方发布 Canvases 功能,允许用户基于 Cursor 创建的仪表盘、报告、内部工具等应用一键发布,并通过 URL 分享给团队。
- 产品定位:这直接对标 OpenAI Codex 此前推出的 Sites 功能,将 AI Coding Agent 的产出从“本地项目”变为“可分享的 Web 应用”,进一步覆盖从开发到部署的完整链路。
- 行业影响:AI 编码工具正从“辅助写代码”升级为“全栈应用平台”,Coding Agent 凭借在编码、设计、调试、部署等方面的闭环能力,正在吞噬 Lovable、v0、bolt.new 等独立 AI 建站工具的市场。 🔗 Cursor 官方推文
4️⃣ [持续跟踪] Anthropic 发布 RSI 研究,Gary Marcus 称不必恐慌#
- 前情提要:昨日 Anthropic 发布内部数据,显示 Claude 已编写80%以上合并代码,可能走向递归自我改进(RSI),引发行业广泛讨论。
- 最新进展:AI 批评者 Gary Marcus 今日连续发布多条评论,指出 Anthropic 的 RSI 声明被夸大——其真正展示的只是“人类控制下的更快编码”,而非 AGI。他强调 AGI 需要全新思路,而现有进展依赖神经符号 AI 整合。同时,Anthropic 的 RSI 研究本身也承认,目前尚不清楚 Claude 是否具备研究判断力。另有工程团队分享称,Anthropic 内部 RSI 实验中的 Mythos 模型在代码加速任务上达到约52倍,但人类审查已成为新瓶颈。
- 社区反响:开发者社区围绕“Harness”(编排系统)成为瓶颈的讨论升温,认为当前 AI 研发的核心限制从模型能力转向了组织协调和人类审核能力。 🔗 Anthropic 官方博客 | Gary Marcus 评论原文
5️⃣ [持续跟踪] NVIDIA Nemotron 3 Ultra 生态持续扩展:OpenRouter 免费、Agent Arena 接入#
- 前情提要:NVIDIA 昨日发布 Nemotron 3 Ultra(550B MoE,55B 活跃参数),支持 1M 上下文,推理速度提升5倍。
- 最新突破:今日 Nemotron 3 Ultra 在多个平台上线或免费开放:OpenRouter 宣布免费提供该模型;Arena.ai 的 Agent Mode 正式接入 Nemotron 3 Ultra,用户可体验复杂多步任务;Ollama 云端也已支持。评测显示其在 Terminal-Bench 风格任务中处于 Pareto 前沿。同时,ComfyUI 也于同期新增了对该模型的支持(通过 Partner Node)。
- 行业意义:Nemotron 3 Ultra 作为当前最强的开源 Agent 模型之一,其免费和广泛生态接入正在加速 Agent 应用从闭源向开源迁移的趋势。 🔗 NVIDIA AI 推文 | OpenRouter 免费公告 | Arena 接入
6️⃣ Firecrawl 里程碑:两年抓取80亿网页,成为 AI 数据基础设施#
- 核心数据:Firecrawl 宣布已累计抓取超过80亿网页,拥有125万+开发者用户,15万+企业客户,GitHub Stars 125K+(进入全球前100仓库),npm 和 PyPI 周下载量250万+。
- 行业洞察:Firecrawl 的成功戳破了当前 AI 圈的一个集体幻觉——很多人以为模型参数越大、推理越强就赢了,却忽略了 Agent 能否可靠、持续、低成本地获取真实世界的最新数据,才是真正的上限。Firecrawl 将“web 上下文层”做成了 AI 时代的基础设施。
- 发展趋势:AI 的下一战场正从“谁的模型更聪明”转向“谁能把整个互联网变成 AI 可直接消费的上下文”。 🔗 Firecrawl 官方推文 | Berryxia.AI 分析
7️⃣ Grok Build 更新:支持 Worktrees,模型改进#
- 核心更新:Elon Musk 宣布 Grok Build 支持 worktrees,用户可在独立的 Git 工作区中并行运行多个 Agent。同时,Grok Build 0.2.20 版本发布,修复多项 bug 并新增 image_to_video、reference_to_video 等工具。
- 模型改进:Grok-build 模型(0.5T 参数)经过更新,变得更自主、更准确,在长时任务上持续优化,现已通过 TUI 提供给用户使用。
- 行业意义:xAI 正在快速跟进业界主流编码 Agent 的功能特性(如多会话并行、worktree 隔离),缩小与 Claude Code 和 Codex 的差距。 🔗 Elon Musk 推文 | Grok Build 更新说明
8️⃣ Browser Use 发布 Profiles 功能:Agent 可同步浏览器登录态,绕过登录#
- 核心更新:Browser Use 官方推出 Profiles 功能,允许 AI Agent 同步本地浏览器的登录状态(cookies、session 等)到云端浏览器,从而绕过网站的登录验证,直接操作已登录的 Web 应用。
- 使用流程:用户创建一个 Profile 并启动同步,然后 Agent 即可在云端使用该 Profile 保持登录状态,一次设置,长期生效。
- 安全与行业影响:这解决了长期困扰 Agent 自动化的一大痛点——登录态管理。但同时,这种能力也引发了安全担忧:若 Agent 被滥用,可能绕过账户保护机制。这表明 Agent 权限管理需要更精细的模型。 🔗 Browser Use 官方推文
9️⃣ Anthropic 设计师公开 Claude Code 工作流:文档与自动化是关键#
- 核心分享:Anthropic 内部设计师、Claude Code & Cowork 设计负责人 Meaghan 在纽约分享了她使用 Claude Code 做产品、写代码、推 PR 的实际工作流。
- 关键方法:她强调“LLM 做设计还很糟”,因此人类必须留在审美与决策环里;自动化不应只限于写代码,还应覆盖非编码工作(如 UI 抛光、代码审查、定时任务巡检)。她现场演示了在 Excalidraw 上通过一句话 prompt 添加自动补全功能,全程使用 Auto 模式和自定义 Skill。
- 重要原则:她提出“人人都能 ship”≠“什么都该 ship”,需要可扩展的质量与治理机制。此外,文档在 Vibe Coding 中扮演着 Harness 的角色,需要系统管理。 🔗 meng shao 中文总结 | 原始视频