Yeekal Logo Yeekal
4,931 字
早报 | MORNING 2026-05-29

Claude Opus 4.8 发布,Anthropic 完成 650 亿美元 H 轮融资,Perplexity Computer 嵌入 Office

今日要点
  • Claude Opus 4.8 发布,SWE-bench Pro 升至 69.2,Fast Mode 速度提升 2.5 倍
  • Anthropic 完成 650 亿美元 H 轮融资,投后估值 9650 亿美元
  • Perplexity Computer 嵌入 Microsoft Office 套件侧面板
Anthropic 发布 Claude Opus 4.8,SWE-bench Pro 从 64.3 升至 69.2,新增 Fast Mode 与 effort control 机制;同步宣布完成 650 亿美元 H 轮融资,投后估值 9650 亿美元,公司称月年化收入突破 470 亿美元。Perplexity Computer 正式集成 Microsoft Office 套件,用户可在 Word/Excel/PowerPoint/Outlook 侧面板调用 AI 代理。Cursor 发布开发者习惯报告,首次公开输入 Token 占成本主要部分的数据。

1️⃣ Claude Opus 4.8 正式发布:更强代码能力与 Fast Mode 同步上线#

  • 核心发布:Anthropic 官方宣布 Claude Opus 4.8 正式可用,在 Opus 4.7 基础上提升了判断准确性、自我评估诚实度以及长时间独立工作的能力,定价保持不变。
  • 性能数据:Opus 4.8 在 SWE-bench Pro 上从 64.3 升至 69.2。更显著的是其“诚实度”——它更愿意承认自身不确定并标记自身代码缺陷,而非声称成功。在 CursorBench 上效率和持续性均优于 4.7。
  • Fast Mode 同步上线:Opus 4.8 提供 Fast Mode,速度约为正常模式的 2.5 倍,价格是之前的 1/3。在 Claude Code 中通过 /fast 启用,API 用户可通过客户经理申请。
  • 生态支持:发布数小时内,GitHub Copilot、Cursor、Windsurf、Devin CLI、v0、Notion、Genspark、Poe、AI SDK、Perplexity Max、Replit 等主流平台均已集成 Opus 4.8。 🔗 Anthropic 官方公告 | AWS 正式可用 | Fast Mode 详情

2️⃣ [持续跟踪] Anthropic 完成 650 亿美元 H 轮融资,年化收入达 470 亿美元#

  • 融资详情:Anthropic 正式宣布完成 650 亿美元 H 轮融资,投后估值 9650 亿美元,领投方包括 Altimeter Capital、Dragoneer、Greenoaks 和 Sequoia Capital。本次融资将用于推进研究和扩大计算基础设施。
  • 财务里程碑:公司本月年化收入已突破 470 亿美元,且第二季度实现运营利润约 5.59 亿美元,运营利润率约 5%,首次实现盈利。Anthropic 的收入已超过 OpenAI 约 35%(根据 The Information 估算)。公司从去年底的 90 亿美元年化收入增长至目前的 450 亿美元以上,五个月内翻了超过 4 倍。
  • 盈利驱动因素:Anthropic 的盈利主要来自企业级 API 和 Claude Code 等 Agentic 产品的强劲需求,企业客户的实际 API 付款远高于订阅费,推动了规模化商业收入。 🔗 Anthropic 官方 | The Information 报道

3️⃣ Google Nano Banana 2 和 Nano Banana Pro 图像模型正式 GA#

  • 核心发布:Google Cloud 宣布 Nano Banana 2(Gemini 3.1 Flash Image)和 Nano Banana Pro(Gemini 3 Pro Image)通过 Gemini Enterprise Agent Platform 正式可用。Nano Banana 2 新增视频文件作为输入参考,支持生成上下文感知的图像、缩略图和信息图。
  • 定价公开:Nano Banana 2 每张图像 0.045NanoBananaPro每张0.045,Nano Banana Pro 每张 0.134。开发者可通过 Gemini API 直接使用,企业级用户可通过 Vertex AI 获得 SLA 保障。
  • 商用案例:Adobe、WPP、Shopify 等企业已集成,用于创意营销、电商产品图片扩增及媒体制作。Google 同步发布 Ultimate Prompting Guide 以指导用户使用。 🔗 Google Cloud Blog | Gemini API 文档

4️⃣ Perplexity Computer 正式集成 Microsoft Office 套件#

  • 核心集成:Perplexity 官方宣布其 AI 计算机代理(Perplexity Computer)现已嵌入 Microsoft Excel、Word、PowerPoint 和 Outlook 侧面板。用户可直接在文档中调用 AI 进行起草、建模、幻灯片制作和邮件处理。
  • 企业安全:该集成基于与 Perplexity 平台相同的安全基础设施,支持 SAML SSO、审计日志和细粒度管理员控制。Max 用户可立即使用 Opus 4.8 作为编排模型。
  • 行业信号:这是 AI 代理从 IDE 进入最广泛使用的办公软件的关键一步,标志着 Perplexity 从搜索向“计算机操作系统”的演化。CEO Aravind Srinivas 称这是“Perplexity Computer 最理想的嵌入场景”。 🔗 Perplexity 官方博客 | Aravind Srinivas 推文

5️⃣ Cursor 发布开发者习惯报告:AI 编码行为数据首次公开#

  • 核心数据:Cursor 官方发布《Developer Habits Report》,基于全球最全面的 AI 编码数据集(跨所有模型系列)。主要发现:重度用户在 AI 活动中占很大比例且差距在扩大;输入 Token 已成为性价比 Token 成本的主要部分;不同模型系列间的单次 Agent 请求成本差异可达 9 倍。
  • 深度见解:报告显示单纯依靠扩展模型上下文窗口成本过高,智能路由(在不同任务间分配不同成本等级的模型)成为关键优化方向。Cursor 再次确认“模型即工厂”的战略:用户不再是直接写代码,而是构建生产软件的 agent 工厂。 🔗 Cursor 官方推文 | Lee Robinson 讨论

6️⃣ NVIDIA AI 发布 LocateAnything:高效视觉检测模型,CVPR 2026 论文登顶 HuggingFace#

  • 核心发布:NVIDIA AI 发布 CVPR 2026 论文 LocateAnything,一种视觉语言检测模型,通过并行解码边界框替代传统的逐坐标解码,在目标定位和视觉基础任务中显著提升了检测精度和吞吐量。
  • 训练规模:模型使用 1.38 亿高质量样本训练,专为 AI 代理和机器人设计,使模型能够快速准确地定位物体。该论文在 HuggingFace 论文面板上排名第一。
  • 行业意义:对于需要实时交互的机器人任务和 Agent 任务,快速目标定位是体验的关键瓶颈。LocateAnything 将这一效率提升至可实际部署的水平。 🔗 NVIDIA AI 推文 | 项目主页

7️⃣ OpenClaw 性能大更新:冷启动快 2.9 倍,依赖减少 42%#

  • 核心更新:OpenClaw 发布最新版本更新,冷 Agent 启动速度提升 2.9 倍,热 Agent 启动速度提升 2.5 倍,tarball 体积缩小 59%,依赖项比月度高点减少 42%。
  • 架构设计:保持小型核心和显式依赖,可选能力通过插件增强。同步上线 PixVerse 视频生成插件(通过 MCP 集成)、改进的 Codex 运行时稳定性、增强的通道交付(Telegram/iMessage/Slack 等)。
  • 安全强化:新版本拒绝更多不安全的运行时输入(命令包装器、不安全的 Node 环境覆写、无认证 Tailscale 暴露等),在运行前阻断潜在风险。 🔗 OpenClaw 发布公告 | 详细博客

8️⃣ 企业 AI 支出 ROI 争议发酵:Axios 曝客户月花 5 亿美元 Claude 费用#

  • 事件报道:Axios 报道称企业开始质疑飙升的 AI 支出是否能带来有意义的回报。一名 AI 顾问透露其客户因未对员工设 Claude 许可证使用限制,一个月内意外花费 5 亿美元。Gary Marcus 称“tokenmaxxing 已死”,并引用 NVIDIA H200 租赁价格在 3 周内从 7 美元/小时骤降至 4 美元/小时作为供应过剩或需求不足的佐证。
  • 更深层的行业反思:The Information 的一篇报道则指出,真正问题不是成本过高,而是企业与 AI 公司之间的定价结构尚未成熟——按 Token 计费的模型使预算管理失去控制。Simon Willison 在博客中认为 2026 年 4 月是 PMF 的转折点,因为企业愿意支付真正的市场价(而非打折订阅费)。
  • 行业影响:这暴露了当前 AI 商业化的核心矛盾:顶级工具的使用推动了令人难以置信的消费,但 ROI 衡量体系尚未跟上。对中小团队而言,这既是警示也是机会——智能路由、预算管理和 ROI 审计将成为下一代 AI 基础设施的关键组件。 🔗 Axios 报道 | Gary Marcus 评论 | Simon Willison 博客

⭐ GitHub 趋势#

📊 类别速览

项目类别Stars
anthropics/skillsAI Agent 框架142.8k
microsoft/markitdownAI 数据预处理127.7k
OpenMOSS/MOSS-TTSAI 语音模型2.2k

1. anthropics/skills ⭐ 今日 +718#

语言/许可: Python / 未指定(仓库含 Apache-2.0 协议子集)
总 Stars: 142.8k
仓库: GitHub

项目定位:
Anthropic 官方发布的 Agent Skills 标准实现,定义了一套可被 Claude 动态加载的指令、脚本与资源文件夹,用于将特定领域知识转化为可复用的 Agent 能力。

核心功能:

  • 标准化的 Skill 文件夹结构(SKILL.md + 脚本/资源),支持 YAML 元数据与 Markdown 指令混合编写
  • 内置 Document Skills(docx、pdf、pptx、xlsx),已用于 Claude 的文档生成功能,属于生产级参考实现
  • 提供技能模板与 Partner Skills 示例(如 Notion),降低第三方开发者的接入门槛
  • 同时支持 Claude Code Plugin 市场、Claude.ai 用户上传以及 API 调用三种部署方式

技术亮点:
Skill 系统本质上是一种“Agent 元编程”框架:通过 namedescription 在运行时被 Claude 检索匹配,无需修改底层模型权重即可实现零样本任务适应。


2. microsoft/markitdown ⭐ 今日 +1,410#

语言/许可: Python / MIT
总 Stars: 127.7k
仓库: GitHub

项目定位:
面向 LLM 数据管道的文件转 Markdown 轻量工具,将 PDF、Office 文档、HTML、音频/视频等格式统一转化为 token 效率最高的 Markdown 表示。

核心功能:

  • 支持 PDF、PowerPoint、Word、Excel、图片(EXIF+OCR)、音频(转写)、HTML、EPub、YouTube 链接等超 10 种输入源
  • 提供 Azure Document Intelligence 与 Azure Content Understanding 的云 API 集成,支持结构化字段提取(YAML front matter)与多模态自动路由
  • 插件架构(#markitdown-plugin),第三方可扩展 OCR、自定义文档理解后端
  • CLI 直接输出 Markdown,支持管道操作(cat file.pdf | markitdown

技术亮点:
基于 Python 原生 I/O 设计,无 Node.js 依赖;核心转换器保持轻量,云服务作为可选增强(pip install 'markitdown[az-content-understanding]')。由 AutoGen 团队维护,匹配 Agent 数据接入场景。


3. OpenMOSS/MOSS-TTS ⭐ 今日 +71#

语言/许可: Python / Apache-2.0
总 Stars: 2.2k
仓库: GitHub

项目定位:
开源语音与声音生成模型家族,覆盖长文本稳定合成、多说话人对话、语音设计与音效生成,提供从 100M 参数量(Nano)到 8B 的全系列模型。

核心功能:

  • MOSS-TTS(旗舰):零样本语音克隆、拼音/音素/时长精细控制、多语言混合合成
  • MOSS-TTSD:跨说话人对话生成,主观评测优于 Doubao、Gemini 2.5-pro
  • MOSS-VoiceGenerator:无需参考音频的文本描述式声音设计
  • 支持 llama.cpp(8B 模型可运行于 8GB GPU)与 SGLang(3× 吞吐加速)后端,并提供 ONNX 音频编解码器

技术亮点:
基于 LLM + 音频 Tokenizer 的架构,通过 MossTTSDelayMossTTSLocal 两种解码策略平衡延迟与质量;最新 v1.5 版本支持 [pause X.Ys] 显式停顿标记与标点跟随韵律。

🟧 Hacker News 热议#

Claude Opus 4.8#

1159 pts · 923 comments · anthropic.com

📌 内容总结

  • Anthropic 发布了 Opus 4.8,官方将其描述为 “modest but tangible improvement”。核心变化包括:benchmark 小幅提升、引入 effort control(用户可手动控制模型在单次任务上的推理深度)、Claude Code 新增 “dynamic workflows”(可并行运行数百个子 agent)、以及支持对话中更新 system prompt。
  • HN 关注点:
    • 4.8 是否修复了 4.7 引入的回归问题(尤其是 “adaptive thinking” 的不可靠性)
    • “honesty” 是否真的可测量,以及用拟人化语言描述模型行为的恰当性
    • Mythos 级模型何时对普通用户开放
    • 基准测试的 cherry-pick 趋势

💬 讨论总结

  • 共识观点:Opus 4.7 被广泛认为是倒退(“disappointment”、“shitshow”),多个用户表示被迫回退到 4.5 或 4.6。4.8 被许多人视为 “回到 Opus 4.5 水准” 的修复版,而非真正意义上的升级。
  • 工程经验:多位用户分享了具体工作流——让 Opus 4.7 做架构规划、GPT-5.5 做纯编码、Opus 4.6 做实现;或让 Claude Code 编写的代码由 GPT-5.5 复查。模型间分工比单一模型端到端更可靠。
  • 基准测试争议:用户指出 Anthropic 在 4.7 发布时包含的多个基准(如 SWE-bench、GPQA Diamond)在此次 4.8 发布中被移除。Opus 4.7 在长上下文召回测试中从 78.3% 跌至 32.2%,该指标此后未被公开提及。
  • 反对意见:部分用户质疑在 DeepSeek 等模型降价背景下,Anthropic 维持 Opus 定价但仅带来增量改进的合理性。“Charging the same for something better is a race to the bottom” 是少数派但被点赞的观点。
  • 关于 “honesty”:社区对此呈现两极分化。支持者认为这是 agent 场景的关键进步;质疑者指出旧版本同样宣称降低了幻觉率,但问题仍然存在。少数评论认为 “honesty” 是营销话术——“My guess is that Claude Opus 4.8 wrote that and is lying to you.”

🔗 原文 · HN 讨论页

Various LLM Smells#

173 pts · 131 comments · shvbsle.in

📌 内容总结

  • 作者记录了自己用 LLM 润色数学博客后,发现产出中存在可识别的模式性 “气味”:过多的押尾短句 (“X is not Y, it is Z”)、大量使用直体否定结构(“not just X, its Y”)、以及网站设计层面的同质化(JetBrains Mono 字体、特定 KPI 卡片组件、指示灯 badge)。
  • HN 关注点:
    • 这些模式的根因:是 RLHF 引入的偏好,还是训练数据本身的问题
    • 如何在实际工作中绕过这些模板
    • “LLM writing” 是否真的比人类写得更差,还是仅仅更可预测

💬 讨论总结

  • 共识观点: 社区广泛认可这些模式的存在,并补充了大量额外例子——“honest”/“genuine” 引导的句子、“load bearing”、“blast radius”、“smoking gun”、“belt and suspenders”、以及用 “The” 开头的小节标题。用户指出这些模式在 Claude Code 产出的代码中也存在(参数垂直展开、过度包装帮助函数)。
  • 工程经验: 多位用户建议使用 LLM 做写作辅助的编辑/审查角色(批评结构、找出过度使用的词、检查被动语态),而非直接采用其输出。直接要求 LLM “更有创意” 几乎无效——“it’ll do something either ugly as sin or some same-y derivation”。
  • 历史背景: 有用户指出 LinkedIn 上的鸡汤文模式(“The tax isn’t the problem. The mindset is.”)实际上早于 LLM 存在,LLM 只是放大了已存在的写作风格,而非创造了新的风格。
  • 反对意见: 少数评论认为 LLM 在网站设计上的同质化实际上是好事——“大多数网站不应该追求独特,可读性是首要目标,LLMs 比中位数开发者更擅长这个”。但这种观点被反驳:“If I can see within a few seconds that your website was obviously AI generated, I will doubt its content.”
  • 深层观察: “The LLM doesn’t smell like authentic writing but it does a great job for fast and cheap words. We’ve gained something similar to fast food.”

🔗 原文 · HN 讨论页

Anthropic raises 65BinSeriesHfundingat65B in Series H funding at 965B post-money valuation#

229 pts · 221 comments · anthropic.com

📌 内容总结

  • Anthropic 完成 H 轮 650 亿美元融资,投后估值 9650 亿。本轮包含此前已宣布的来自 hyperscaler(Amazon 50 亿、Google/Broadcom 等)的 150 亿。公司称 run-rate revenue 在 5 月已超过 470 亿。资金将用于安全研究、计算扩展和产品扩张。
  • HN 关注点:
    • 估值数字的可信度与融资间隔的缩短(G 轮在 2 月仅 3 个月前)
    • run-rate revenue 的关联性:与过去融资公告中的数据对比是否存在矛盾
    • 芯片制造商(三星、SK hynix、Micron)参与本轮投资的 circular deal 属性

💬 讨论总结

  • 共识观点: 社区普遍认为这一估值体现了 AI 投资的持续泡沫。关键数字对比:2 月 G 轮时公告 run-rate 为 140 亿,4 月公告为 300 亿,5 月公告为 470 亿。用户计算:仅美国地区就需要每位软件工程师月均消费超过 400 美元才能支撑该数字。“There’s a lot of fake revenue reported here.”
  • 商业现实: 多位用户指出 Anthropic 依赖于第三方数据中心(AWS、Google、xAI),与 OpenAI 自建 GPU 集群的策略不同。“IMHO they got very lucky with xAI and Google having spare capacity… But what about next year?”
  • 关于 IPO 时间线: 争议集中在 “round H” 的规模是否延迟了 IPO。有用户援引 Databricks 的 round L 作为先例,认为理论上可以无限融资。但多数观点认为估值接近 1 万亿的 private company 将面临越来越大的上市压力,且现有投资者会寻求流动性。
  • 风险/限制: 资金流向的 circularity 受到严肃讨论——“NVIDIA being one of the worst… either the bubble doesn’t pop and corruption like this is considered legal, or it pops and the financial hurt will be felt for a decade.”

🔗 原文 · HN 讨论页

今日洞察#

Opus 4.8 最值得关注的不是 benchmark 数字,而是 HN 社区对模型迭代的信任危机。 多个用户将 4.7 描述为“倒退”并被迫回退到 4.5/4.6,4.8 被普遍视为“回到 4.5 水准的修复版”而非升级。Anthropic 在 4.8 发布中移除了 4.7 包含的多个基准测试(如长上下文召回从 78.3% 跌至 32.2% 后未被公开提及)——这种基准迁移本身就是一个危险信号:当 benchmark 不再被维护地发布时,社区会默认模型在某些维度退步了。对依赖 API 的生产级用户而言,这迫使工作流中加入模型版本锁定和回归测试层。

模型间分工已成为工程共识,而不仅仅是备选方案。 HN 上多位用户分享了具体分工模式:Opus 4.7 做架构规划 + GPT-5.5 纯编码 + Opus 4.6 实现的组合,或 Claude Code 编写代码后由 GPT-5.5 复查。Cursor 报告进一步佐证了这一点——智能路由(在不同任务间分配不同成本等级的模型)被定位为关键优化方向,且单次 Agent 请求成本差异可达 9 倍。这意味着“全能模型”的产品叙事正在被工程现实淘汰:开发者不再追求单一模型覆盖所有场景,而是构建以路由为核心的成本-质量权衡系统。

Anthropic 融资数据中的 run-rate 跳跃值得深挖,而非表面接受。 2 月 G 轮公告 run-rate 为 140 亿,4 月升至 300 亿,5 月升至 470 亿,三个月内翻了 3 倍以上。HN 用户计算显示这一数字需要每位美国软件工程师月均消费超 400 美元才能支撑——这更像是包含某些一次性收入或大客户预付款的会计手法。配合 Axios 报道的企业因无限制许可意外月花 5 亿美元 Claude 费用的案例,以及 The Information 指出的按 Token 计费使预算失控的问题,这说明当前顶级 AI 公司的收入数字并非可持续需求的直接映射,而是定价结构不成熟和一次性承诺的叠加。当企业开始部署预算管理和 ROI 审计工具,这类增长可能面临纠正。

1,551 字
晚报 | EVENING 2026-05-29

Anthropic Opus 4.8 与 H 轮融资双响,a16z 力挺应用层

今日要点
  • Anthropic H 轮 650 亿美元,Opus 4.8 同日发布
  • a16z 分析:AI 应用层在垂直、复杂工作流中存在巨大机会
  • Google AI Threat Defense 推出,用多模型主动修复漏洞
Anthropic 发布 Opus 4.8 并完成 650 亿美元 H 轮融资,估值达 9650 亿美元;a16z 合伙人撰文称 AI 应用层机会远未被模型层吞没;Google 推出 AI 威胁防御系统,OpenRouter 上线 Step 3.7 Flash 模型。

1.[持续跟踪] Anthropic 双响炮:Opus 4.8 发布 + H 轮 650 亿美元融资#

  • 前情提要:昨日 Anthropic 正式发布 Claude Opus 4.8,主打“更诚实”的判断力与更长的自主工作时间,并同步开放 Fast Mode(速度 2.5 倍,价格仅为先前 1/3)。同时官方宣布完成 650 亿美元 H 轮融资,投后估值 9650 亿美元,超过 OpenAI。公司年化收入已突破 470 亿美元。
  • 最新进展与社区反馈
    • 生态集成:Cursor、GitHub Copilot、Poe、Dify、ZenMux 等平台均已火速支持 Opus 4.8。
    • 基准争议与亮点:Opus 4.8 在 SWE-bench Pro 达到 69.2%,agentic coding 断层领先。但其 Terminal-Bench 2.1 评分仍未超越 GPT-5.5。LlamaIndex 在 ParseBench 上评测发现其在表格、布局上略有提升,但在图表解析和内容忠实度上小幅倒退。
    • 核心升级:动态工作流(Dynamic Workflows)是 Claude Code 的重磅更新。开发者可通过提示词触发 Claude 编写编排脚本,并行调度数百个子 Agent 完成大型代码库迁移等复杂任务。标杆案例是 Bun 从 Zig 移植到 Rust 的 75 万行代码迁移。
    • 反馈分化:CEO Dario Amodei 向市场释放“增值效应”的乐观叙事,而联创 Chris Olah 则在梵蒂冈演讲中警示,激励机制可能与“做正确的事”冲突,需要外部道德监督。
  • 行业影响:本次融资确立了 Anthropic 作为顶级 AI 公司的资本地位。Opus 4.8 虽为小幅增量更新,但其对“诚实度”的强调和动态工作流功能,正在定义下一代 Agent 协作的范式。 🔗 Anthropic 官方公告 | Simon Willison:Anthropic 年化营收 470 亿 | LlamaIndex ParseBench

2.a16z 深度分析:AI 应用层机会远未被模型层吞没#

  • 核心观点:a16z 合伙人 Joe Schmidt IV 发表长文,核心论点是 OpenAI 和 Anthropic 砸数百亿美元做前置部署,恰恰证明他们无法用一个通用 AI 同事解决所有问题。应用层在垂直、复杂的工作流深处存在巨大机会。
  • “黄砖路” vs “奥兹国的其他角落”:文章将“拿最强模型+简单编排做成通用 AI 同事”的路径称为“黄砖路”,创业公司走此路将与模型实验室正面冲突。真正的机会(奥兹国的其他地方)在于跨系统上下文获取、多审批节点、遗留系统集成、与商业结果直接挂钩的确定性工作。
  • 为什么实验室无法吃掉应用层:1)数据与学习飞轮;2)模型变异性管理;3)按子任务路由的成本优化;4)合规与治理要求。模型层可替换,但工作系统不可替代。 🔗 a16z 官方文章

3.Cursor 发布开发者习惯报告:AI 代码生成正在深刻改变工作形态#

  • 核心数据:Cursor 首次公开跨模型系列的 AI 编码行为数据集。报告显示,每位开发者周均新增代码行从 3.6K 增至 8.6K,千行以上的大 PR 占比从 8% 升至 13.8%。
  • 关键发现:AI 生成代码的 60 分钟留存率从 76% 升至 81%,表明开发者愈发认可并保留 AI 生成的代码。单次 Agent 会话的平均工具调用数在过去两个月内上升约 30%,Agent 正在处理更复杂的工作。
  • 两极分化加剧:报告指出 P99 用户的 AI 代码行数是中位数用户的 46 倍,模型间单次 Agent 请求成本差异可达 9 倍,智能路由成为关键优化方向。 🔗 Cursor 官方报告

4.Google 推出 AI Threat Defense:用多模型舰队自治对抗黑客#

  • 核心发布:Google Cloud CEO Thomas Kurian 宣布推出 Google AI Threat Defense,一套集成了 Wiz 与 Gemini 等多模型的安全解决方案。系统能自主扫描、漏洞验证并通过“CodeMender”Agent 加速修复,形成闭环。
  • 设计哲学:由于单一模型无法覆盖所有漏洞,系统采用了多模型协同(含 Gemini 及其他前沿模型)来实现更全面的扫描覆盖。这标志着 AI 安全攻防进入“Agent vs Agent”时代。 🔗 Google 官方博客

5.阶跃星辰 Step 3.7 Flash 上线 OpenRouter:198B MoE 模型#

  • 模型发布:Step 3.7 Flash 正式在 OpenRouter 上线,该模型为 198B 参数的稀疏 MoE,仅激活约 11B 参数。原生支持图像和视频处理,上下文窗口 256K。
  • 性能与部署:标称 400 TPS,在 ClawEval-1.1 和 SimpleVQA Search 上排名第一,SWE-PRO 排名第二。模型采用 Apache 2.0 开源协议,可在 Mac Studio(M4 Max)及 DGX Spark 等设备上本地运行。 🔗 StepFun 官方公告 | OpenRouter 链接

6.OpenAI 产品负责人释放 Auto Review 功能:一个 AI 实时监督另一个 AI#

  • 核心功能:OpenAI 产品负责人 Nick Turley 透露了 Auto Review 功能。该机制允许一个独立的“第二 Agent”实时验证主 Agent 的每一个动作,检查其是否在执行有害操作。
  • 产品意义:此次落地将安全研究变为了用户可感知的体验——“AI 对齐研究第一次以普通用户摸得着的方式落地”。这使得用户可以更放心地将敏感数据和长时间任务委托给 Agent 在后台运行。 🔗 小互视频报道

7.Google 推出免费 5 天 AI Agents 课程:聚焦 Vibe Coding 与 Agent 构建#

  • 课程发布:Google 的免费 AI Agents 课程回归,本次主题为“Vibe Coding with Agents”。课程覆盖从 Agent 构建、工具集成、记忆与上下文、质量与安全到上线生产部署的完整流程。
  • 过往成绩:上一期课程吸引了 150 万学习者。本次由 Google 工程师亲自授课,每天 1-2 小时,依旧免费。 🔗 Peter Yang 推文