Claude Sonnet 5 发布,Claude Code 隐写争议,Claude Science 推出
- Claude Sonnet 5 发布,性能接近 Opus 4.8,定价更低
- Claude Code 被指以隐写术检测中国代理用户,引发信任争议
Anthropic 发布 Claude Sonnet 5,称其最具 Agent 能力,性能接近 Opus 4.8,API 定价 3/15 美元每百万 Token,并采用新 tokenizer;安全研究员通过逆向分析发现 Claude Code 在提示词中嵌入隐写标记,用于检测中国代理用户;与此同时,Anthropic 推出面向生命科学家的专用应用 Claude Science,整合 60+ 科学数据库。
title: “Claude Sonnet 5 发布,Google 推出 Nano Banana 2 Lite 与 Omni Flash” lead: “Anthropic 发布 Claude Sonnet 5,性能接近 Opus 4.8 但价格更低,今起成为官方默认模型;Google 推出 Nano Banana 2 Lite 和 Gemini Omni Flash,分别以 4 秒图像生成和 0.10 美元/秒视频编辑冲击市场;AI 专用芯片公司 Etched 结束隐身模式,宣布获 8 亿美元融资并开始出货。” highlights:
- “Anthropic 发布 Claude Sonnet 5,默认替代 Sonnet 4.6”
- “Google 发布 Nano Banana 2 Lite 及 Gemini Omni Flash”
- “AI 芯片公司 Etched 获 8 亿美元融资,宣布首款产品出货”
1️⃣ Anthropic 发布 Claude Sonnet 5:最具 Agent 能力,性能接近 Opus 4.8#
- 核心发布:Anthropic 正式发布 Claude Sonnet 5,称其为“最具 Agent 能力的 Sonnet 模型”。即日起成为 Claude 免费版和 Pro 版的默认模型,并向 Max、Team 和 Enterprise 用户开放。
- 性能与价格:在编程和知识工作基准上,Sonnet 5 得分接近其旗舰模型 Opus 4.8。早期评测显示,其在 CursorBench 得分为 57%(高于 Sonnet 4.6 的 49%),在 Devin 的 FrontierCode 基准上得分为 53.8%。API 定价为输入 3 美元/百万 Token,输出 15 美元/百万 Token,8 月 31 日前享受促销价 2 美元/10 美元。值得注意的是,新模型采用了新的 tokenizer,导致相同文本成本增加约 30%,但促销期对冲了该涨幅。
- Agent 化升级:Sonnet 5 能够自主制定计划、使用浏览器和终端等工具,并在复杂任务中检查自身输出。Anthropic 表示,其自主执行能力已达到几个月前需要更大、更昂贵模型才能达到的水平。
- 广泛集成:发布后数小时内,Sonnet 5 已迅速被 Cursor、Devin、GitHub Copilot、Perplexity、Notion、Bolt.new、Lovable 以及 OpenRouter 等多款主流开发工具和平台集成。 🔗 Anthropic 博客 | Sonnet 5 官方介绍 | Simon Willison 新 tokenizer 分析
2️⃣ Google 发布 Nano Banana 2 Lite 与 Gemini Omni Flash:多模态生成新格局#
- 核心发布:Google DeepMind 和 Google Cloud 联合发布两款新模型:Nano Banana 2 Lite (GA) 和 Gemini Omni Flash (Public Preview)。两者均在 Gemini API 和 Google AI Studio 中可用。
- Nano Banana 2 Lite:这是 Google 最快、最具成本效益的图像生成模型。可在 4 秒内生成一张图像,定价为 0.034 美元/千张图像,旨在实现高吞吐量。在 LMSys Text-to-Image Arena 中排名第五,以旗舰质量水平提供低成本方案。
- Gemini Omni Flash:这是一个原生多模态视频生成和编辑模型。具备世界知识,支持对话式视频编辑,如根据语音指令替换场景人物或风格。定价为 0.10 美元/秒视频输出,在 LMSys Video Edit Arena 中排名第二。支持 Interations API,可进行多达三次的连续编辑。
- 客户与生态:Adobe Firefly、Inv ideo、WPP、Figma、Manus AI 和 Runway 等均已宣布集成或测试这些模型。 🔗 Google Cloud 博客 | Google DeepMind 博客 | LMSys Arena 评测
3️⃣ [持续跟踪] Claude Code 被指在提示词中嵌入代理检测,引发隐私争议#
- 前情提要:昨日有 Reddit 帖子和社区成员指出,Claude Code 可能在系统提示词中嵌入用于检测中国代理用户的隐蔽水印。
- 最新进展:安全研究员 Adnane Khan 在 GitHub 上发布了针对 Claude Code 的逆向分析报告。报告指出,当用户设置了
ANTHROPIC_BASE_URL环境变量时,Claude Code 会检查代理域名是否在一个包含约 147 个域名(包括阿里、百度等中国企业及 Claude API 中转站)的列表中,以及系统时区是否为Asia/Shanghai或Asia/Urumqi。随后,系统会通过修改日期的格式(如2026/06/30)或使用肉眼不可见的 Unicode 撇号字符,将检测结果“编码”进系统提示词中。 - 行业意义:此机制被描述为“代理触发”的隐蔽信道,虽然在不使用官方 API 时才会激活,但其未公开且通过逆向工程才被发现的做法,引发了开发者对工具信任和透明度的质疑。截至发稿,Anthropic 尚未对此做出公开回应。 🔗 宝玉推文详情 | 国际网络安全通讯的原始推文
4️⃣ Etched 结束隐身模式:SOTA AI 推理芯片,获 8 亿融资并开始出货#
- 核心发布:AI 芯片初创公司 Etched 宣布结束隐身模式,并向早期客户交付首批机架。该公司由 CEO Gavin Uberti 领导,致力于打造专用的 AI 推理芯片。
- 技术与财务数据:公司完成 A0 流片( tapeout)后成功构建了首批机架。在早期客户测试中,其在推理负载上实现了 SOTA 吞吐量、延迟和能效。Etched 已筹集 8 亿美元资金,并签署了超过 10 亿美元的客户合同。首批机架将于今年夏天交付。
- 行业意义:在当前 AI 算力主要依赖通用 GPU 的背景下,Etched 的进展标志着专用 ASIC 在加速 AI 推理方面的巨大潜力。该消息受到众多行业领袖的关注,并被认为是 AI 基础设施硬件领域的一个重要里程碑。 🔗 Etched 官方推文 | AI Engineer 播客
5️⃣ OpenAI 推出 GeneBench-Pro:评估 AI 在真实生物数据中的推理能力#
- 核心发布:OpenAI 正式推出 GeneBench-Pro,这是一个旨在评估 AI 在复杂生物数据中导航、选择正确分析路径并做出判断能力的研究级基准。
- 评测目标:该基准重点测试 AI Agent 处理真实计算生物学研究中的“混乱”数据的能力。它超越了简单的问答,要求 AI 模型自主思考,理解生物数据的内在逻辑并执行多步推理。
- 行业意义:GeneBench-Pro 的推出标志着 AI 评估正从通用基准向深层次、学科特定领域的“科学推理”能力迈进。这为衡量 AI 在基础科学研究中的真实应用价值提供了更具挑战性的标尺。 🔗 OpenAI 官方推文 | OpenAI 博客
6️⃣ Meta 开源 Brain2Qwerty v2:非侵入式脑机接口实时解码句子#
- 核心发布:Meta AI 宣布开源其最新的非侵入式脑机接口研究项目 Brain2Qwerty v2,该模型能实时将大脑活动转化为句子。
- 性能突破:该研究利用脑磁图(MEG)设备记录用户打字时的脑部信号,并通过端到端深度学习模型进行解码。其单词准确率达到 61%,在表现最佳的被试者中高达 78%,显著超越了此前非侵入式方法 8% 的水平。
- 开源与意义:Meta 已开源 v1 和 v2 的全部训练代码,合作方也公开了相关数据集,旨在加速神经科学研究和可用的非侵入式脑机接口技术的发展,帮助因脑损伤导致无法交流的患者。 🔗 AI寒武纪报道
7️⃣ Anthropic 推出 Claude Science:面向科研人员的专门应用#
- 核心发布:Anthropic 正式推出 Claude Science,一款专为科研工作流设计的全新应用。目前已进入 Beta 测试阶段。
- 核心功能:Claude Science 提供了 Artifacts 与源代码的可追溯性、按需管理的实验环境,以及可连接超过 60 个可选的科学数据库。旨在覆盖研究的各个阶段,从文献调研到数据分析和成果输出。
- 行业意义:此应用将 Claude 从一个通用的对话式 AI 提升为针对特定垂直领域(科学研究)的专业工具,用户可通过
claude.com/science访问。 🔗 Claude 官方推文 | 产品页面
8️⃣ 微软研究院提出 SkillOpt:将 Agent“技能”作为可训练的参数#
- 核心发布:微软研究院发布新研究 SkillOpt,提出可将 Agent 的技能文件(如 Markdown 格式的指令)作为一种可训练的参数进行优化,而无需改变模型权重。
- 核心方法:SkillOpt 使用一个优化器模型,根据 Agent 执行的轨迹反馈,在文本空间中对技能文件进行一系列小范围的编辑(新增、删除、替换),并通过验证门控(Validation Gate)确保每次修改都能带来性能提升。
- 性能数据:在包含 6 个基准测试、7 个模型和 3 种执行模式的 52 个评测单元中,SkillOpt 均取得最佳或并列最佳成绩。在直接聊天模式下,它将 GPT-5.5 的六项基准平均分从 58.8 提升至 82.3。
- 行业意义:SkillOpt 预示着 Agent 的优化焦点正在从微调模型本身,转向优化驱动其行为的“外部知识”和指令,这为 Agent 的自动化对齐和交付提供了更高效、更可控的新路径。 🔗 微软研究博客 | 微软研究推文
9️⃣ Thinking Machines 发布交互模型:以 200 毫秒微轮驱动实时 AI#
- 核心发布:AI 研究实验室 Thinking Machines 发布其交互模型(Interaction Model)研究预览,提出了一种构建实时 AI 系统的新方法。
- 技术突破:其模型(TML-Interaction-Small)不是将对话切分为“轮次”,而是将时间切分为 200 毫秒的“微轮”。这使得模型可以同时进行语音和音频的输入输出,实现连续、实时的互动。在处理需要深度推理的任务时,一个快速的“交互模型”会与一个较慢的“后台模型”协同工作。
- 行业意义:这一架构从根本上挑战了当前通过“语音活动检测 + 语音转文字 + LLM”管道模拟实时对话的“拟声”方法,将实时性内建于模型之中,为更自然、更具协作性的人机交互打开了新的可能性。 🔗 ByteByteGo 分析 | Thinking Machines 博客
🔟 Claude Desktop 登陆 Linux,Heresie Agent 获 Web 能力显著提升#
- 核心发布:Anthropic 宣布 Claude Desktop 正式以 Beta 形式支持 Linux 系统(基于 Ubuntu 和 Debian),为 Linux 开发者提供与浏览器和终端同等的桌面体验。
- Agent 生态更新:Firecrawl 转发指出,Nous Research 的 Heresie Agent 通过改进的网页抓取后端,如今在读取网络内容时的速度提升了 60 倍,成本降低了 49 倍,显著增强了 Agent 获取和处理实时信息的能力。 🔗 Claude Desktop Linux 公告 | Heresie Agent 推文
⭐ GitHub 趋势#
📊 类别速览
| 项目 | 类别 | Stars |
|---|---|---|
| diegosouzapw/OmniRoute | AI 基础设施 | 8.5k |
| google/agents-cli | AI Agent | 4.2k |
| ogulcancelik/herdr | AI Agent | 9.0k |
1. diegosouzapw/OmniRoute ⭐ 今日 +459#
语言/许可: TypeScript / MIT
总 Stars: 8,470
仓库: GitHub
项目定位:
面向 AI 开发者和独立开发者的统一 LLM API 网关,聚合 50+ 免费推理提供商,内置 token 压缩与智能回退,降低 API 对接成本与请求失败率。
核心功能:
- 单一
/v1端点支持 236 个 AI 提供商(含 50+ 免费 tier),兼容 OpenAI 格式 - 17 种路由策略(优先级、轮询、低延迟、最低成本等),支持智能自动回退
- 内置 RTK + Caveman 堆叠压缩,工具型对话 token 节省平均约 89%
- 集成 A2A 和 MCP 协议支持,附带 87 个预置 MCP 工具
技术亮点:
基于 TypeScript 构建,支持桌面端(Electron)、PWA 及 Docker 部署;提供实时仪表盘监控免费额度与提供商状态。
2. google/agents-cli ⭐ 今日 +433#
语言/许可: Python / Apache-2.0
总 Stars: 4,164
仓库: GitHub
项目定位:
Google 推出的 Agent 开发 CLI 及技能集,旨在让任意编码助手(Claude Code、Codex、Antigravity 等)具备在 Google Cloud 上构建、评估与部署 AI Agent 的端到端能力。
核心功能:
- 一键
agents-cli scaffold <name>生成 ADK 项目,含部署、CI/CD 及 RAG 配置 - 内置评估框架:支持多轮数据集合成、LLM-as-Judge 评分、失败模式聚类与 prompt 自动优化
- 一键部署到 Google Cloud Run / GKE / Agent Runtime,并支持 Gemini Enterprise 发布
- 提供 7 个可注入编码助手的 Skills,覆盖从 ADK 编码到可观测性全流程
技术亮点:
利用 Google ADK(Agent Development Kit)作为底层框架,支持本地 AI Studio API Key 开发,无需 Google Cloud 账号即可完成本地评估。
3. ogulcancelik/herdr ⭐ 今日 +485#
语言/许可: Rust / AGPL-3.0
总 Stars: 8,987
仓库: GitHub
项目定位:
面向 AI 编码 Agent 的终端复用器,为每个 Agent 提供独立真实终端视图,替代 tmux 用于多 Agent 协同开发的会话管理。
核心功能:
- 每个 Agent 运行在独立真实终端中,支持全屏 TUI 渲染(非模拟视图)
- 侧边栏实时汇总所有 Agent 状态(阻塞/工作中/完成/空闲),无需额外配置
- 支持 workspace、tab、pane 拖拽分割,鼠标原生操作
- 断线后服务端保持进程运行,可通过 SSH 或
herdr --remote重连
技术亮点:
- 单一 ~10MB Rust 二进制,零依赖,支持 Linux / macOS / Windows (beta)
- 内置 Unix Socket API 与 CLI,Agent 可编程创建 workspace、订阅状态变更
- 原生支持 15+ 主流编码 Agent 状态检测(Claude Code、Codex、Copilot CLI 等)
🟧 Hacker News 热议#
Claude Sonnet 5#
810 pts · 457 comments · anthropic.com
📌 内容总结
- Anthropic 发布 Sonnet 5,定位为“最 Agentic 的 Sonnet 模型”,在规划、浏览器/终端工具使用、自主执行等方面接近 Opus 4.8,但定价更低(intro 10 → 常规 15 per MTok)。
- 采用新 tokenizer(类似 Opus 4.7),同样输入 token 数增加 1.0–1.35×,intro 定价设计为“大致成本中性”。
- 安全评估显示:整体不当行为率低于 Sonnet 4.6,但 cybersecurity 能力显著低于 Opus 4.8 和 Mythos 5;Anthropic 将其作为卖点宣传。
- Benchmark 图表表明:Sonnet 5 在低/中等 effort 下性价比突出,在高 effort 下性能与 Opus 4.8 接近但成本更高。
💬 讨论总结
- 成本-性能权衡:多数评论共识——Sonnet 5 在 low/medium effort 下是好选择,但 high/xhigh effort 应直接换用 Opus 4.8,否则成本更高且结果更差。Claude Code 订阅计划中 Sonnet 使用也计入配额并更贵,进一步削弱其吸引力。
- 实际提升有限:部分用户认为 Sonnet 5 与 Sonnet 4.6 的差距不大,而 Opus 4.8 早已可用;更令人失望的是模型能力甚至不如开源模型(如 GLM 5.2)。
- 对“弱化网络安全能力”的反讽:社区普遍认为 Anthropic 强调模型“不擅长网络安全”是奇怪的市场定位,实际反映的是监管/安全审查压力,而非工程师意图。
- Fable 与 Haiku 缺席:多个评论要求重发 Fable 或更新 Haiku(4.5 已近一年),认为 Sonnet 5 一般,且 Anthropic 在旗舰模型上进展缓慢。
- tokenizer 成本隐忧:新 tokenizer 导致 token 数上涨,虽然 intro 定价看似持平,但长期成本上涨;用户需重新评估实际花费。
Claude Code is steganographically marking requests#
1319 pts · 378 comments · thereallo.dev
📌 内容总结
- 开发者逆向发现:Claude Code 客户端在构造系统提示时,根据
ANTHROPIC_BASE_URL、时区(Asia/Shanghai / Asia/Urumqi)和 hostname 是否匹配已知关键词列表,将日期字符串里的撇号和分隔符替换为视觉相似的 Unicode 字符('→’/ʻ/ʹ),作为隐藏标记发送给模型。 - 关键词列表包括
deepseek、zhipu、baichuan等中国 AI 实验室及大量 API 代理/网关域名,列表经 base64 + XOR 编码。 - 作者判断:目的是检测通过代理使用 Claude API 的流量(可能是模型蒸馏或未授权转售),标记会被模型后端解析。此机制在标准 API 端点上不生效(
ANTHROPIC_BASE_URL未设置时提前返回)。 - 作者批评:这种行为虽然能理解,但隐蔽、不透明,损害用户信任;且易被绕过(修改 hostname/时区/二进制),主要打击合法但非标准用法的普通开发者。
💬 讨论总结
- 信任与透明度争议:多数评论认为 Anthropic 有权保护模型不被蒸馏,但以隐写方式修改系统提示而不告知用户,破坏了信任。支持者认为这属于猫鼠游戏,反对者称“不透明就是欺瞒”。
- 实际影响有限:共识是此操作对普通用户无影响(仅对自定义 base URL 生效),且很容易被绕过(换域名、改时区)。批评者认为它主要伤及合法但小众的开发者(如内部网关、本地代理实验)。
- 法律与道德层面:有观点指出,若 Anthropic 基于此标记返回降级结果,则可能构成欺诈;另一些评论引用出口管制法律,认为 Anthropic 必须检测中国访问。社区对“隐蔽降级”的担忧普遍,认为这开了危险先例。
- 工程实现粗糙:多个评论指出这种检测方式过于简陋(仅检查 hostname 子串),且过早被发现,不如使用模型 token 分布做更隐蔽的隐写。有人联想到 Zig 编译器签名类的“业余行为”。
- 对 Anthropic 信任度下降:不少用户表示“再也不敢用 Claude Code”,并开始转向开源替代(如 Codex CLI、Pi 等)。但也有评论认为这是必要防御,对此大惊小怪的是“中国蒸馏实验室”的舆论操作。
Claude Science#
335 pts · 111 comments · claude.com
📌 内容总结
- Anthropic 发布 Claude Science(beta),一个面向生命科学家的 AI 工作台,整合了 60+ 科学数据库(PubMed、UniProt、FDA 等)、HPC 集群连接、计算环境(笔记本/台式机/Linux 节点),并支持可追溯的分析记录(代码 + 环境 + 对话)。
- 强调“从数据到发表”,包含自动文献综述、数据分析和图表生成,并内置“评审代理”持续检查引用和数值一致性。
- 定位并非新模型,而是基于现有 Claude 模型的集成工具;通过 MCP 协议连接外部工具和数据库。
- 早期试用者来自 Manifold Bio、Whitehead Institute、UCSF 等,反馈集中在 bioinformatics 分析效率提升。
💬 讨论总结
- 目标对象明确:共识认为这是为生命科学“数据科学”场景设计的工具,不是通用科学平台。主要打击的是生物信息学家,而非物理/化学/工程领域。
- 可重复性与幻觉问题:多名评论者指出 LLM 产生幻觉引用是已知问题,该产品声称“从数据到发表”可能加剧出版危机(论文多而质量低)。有评论者测试发现确实验证到了虚假文献。
- 对 Fable 仍不可用的不满:多个评论批评 Anthropic 在 Fable 被政府限制一个月后仍无实质更新,反而推出新商业产品,显得优先考虑盈利而非“帮助人类”。
- 数据接入的价值:少数有经验的 bioinformticians 认可 Claude Science 的数据库和 HPC 集成,认为很多科研数据库仍只能通过 FTP 访问,LLM 能极大降低使用门槛。
- 对信任的普遍担忧:结合同日爆出的隐写事件,评论中不少用户表示“不信任 Anthropic 的闭源产品处理敏感科研数据”,担心数据被用于训练或泄露。
- 质疑必要性:部分评论认为“科学不缺论文,缺好论文,AI 只会制造更多噪音”。
今日洞察#
Sonnet 5 的定价策略背后是 tokenizer 成本转移。
Hacker News 上讨论焦点不是 Sonnet 5 的能力提升,而是新 tokenizer 引入后的实际成本变化。同一段输入 token 数增加 1.0–1.35x,促销期 2/10 美元的价格只是“大致成本中性”,常规价 3/15 美元意味着用户实际支出增长。这意味着 Anthropic 在“价格显性下降”的 PR 叙事下,完成了向用户端的 tokenizer 成本转移。长期看,API 用户需要重新计算 token 消耗,否则实际支出将高于预期。
Claude Code 隐写事件暴露了信任作为商业资产的脆弱性。
这不是功能问题,而是承诺问题。Claude Code 从未在文档中声明会检查代理域名并修改系统提示。Anthropic 的动机可以理解——检测模型蒸馏或未授权转售——但隐蔽实现方式的代价是用户信任。Hacker News 高赞评论“再也不敢用 Claude Code”不是孤立情绪。对于一家以“负责任”为品牌核心的 AI 公司,这类事件会对开发者生态产生持久影响,推动更多用户转向开源替代品(如 Codex CLI),即使后者性能更差。信任是渗透成本,无法用 ROI 衡量,但它会改变开发者明天的默认选择。