DeepSeek 开源 DSpark,GitHub 发布 Copilot Harness 基准测试
- DeepSeek 开源 DSpark 投机解码,含完整代码与 checkpoint
- GitHub Harness 基准:任务解决率持平但 Token 消耗更少
- OpenAI Codex 周活 500 万,Agent 使用向 PM 等岗位扩散
DeepSeek 正式开源 DSpark 投机解码框架,包含训练代码、模型 checkpoint 和 DeepSpec 代码库,生产环境吞吐提升 1.5-5 倍;GitHub 发布 Copilot Agentic Harness 基准测试,结果显示 Harness 本身已成为决定 Agent 效率的关键变量;OpenAI Codex 周活跃用户达 500 万,Anthropic PM 分享内部 Agent 使用心得,AI Agent 正向非工程岗位渗透。
1️⃣ 马斯克宣布 Grok 4.5 内测:基于 1.5T 模型,用 Cursor 数据训练#
- 核心发布:Elon Musk 在 X 平台宣布 Grok 4.5 已在 SpaceX 与 Tesla 进入私人内测阶段。该模型基于 xAI 的 1.5T 参数 V9 基础模型,并在补充训练中集成了 Cursor 的编程数据。
- 性能表现:早期评估显示 Grok 4.5 的性能“接近,甚至可能已超越 Claude Opus”。Musk 表示强化学习仍在持续显著改进模型,且 Grok Build 脚手架每天都在变得更好。
- 后续计划:Musk 透露,SpaceX 将在今年每月发布完全从头训练的新模型,预示着 xAI 的模型迭代节奏将大幅加速。
- 行业意义:这是首次公开确认将 Cursor(以 Claude 驱动的编程工具)的用户数据用于训练竞争模型,引发了关于数据来源和模型竞争的广泛讨论。同时,1.5T 参数的规模及与 Opus 的对比,标志着 Grok 系列已进入前沿模型的第一梯队。 🔗 Elon Musk 推文 | Aadit Sheth 评论
2️⃣ [持续跟踪] DeepSeek 开源 DSpark 投机解码框架:生产环境 1.5-5 倍吞吐提升#
- 前情提要:昨日 DeepSeek 与北大联合发布 DSpark 投机解码论文,介绍其在 V4 系列模型上的推理加速方案。
- 最新突破:今日 DeepSeek 正式将 DSpark 开源,包含训练代码、模型 checkpoint 及完整的 DeepSpec 代码库。该项目已在 GitHub 发布,Clement Delangue 转发称这为本地模型提供了加速版本。
- 核心技术:DSpark 的核心创新是“并行 backbone + 顺序 head”混合,通过一个小型 Markov head 解决传统并行猜测的后缀衰减问题。置信度调度机制配合硬件感知调度器,避免在大概率失败的 token 上浪费算力。
- 开源要点:开源内容包括
DeepSeek-V4-Pro-DSpark和DeepSeek-V4-Flash-DSpark的模型 checkpoint、基于 MIT 协议的 DeepSpec 训练代码、以及详细的论文。Dmytro Dzhulgakov 用 10 个要点深入解读了该技术。 - 行业意义:DSpark 证明了投机解码在真实生产系统中绝非“理论好但实战难”,而是能稳定提速 60% 以上且不影响输出质量。这为所有部署大型 LLM 的团队提供了可直接落地的推理优化方案。 🔗 DSpark 论文 | Berryxia 解读 | Dzhulgakov 技术解读
3️⃣ GitHub 发布 Copilot Agentic Harness 基准测试:任务解决率持平,Token 消耗更少#
- 核心发布:GitHub 官方发布了对 Copilot agentic harness 的基准测试结果,与各模型厂商原生 Harness 进行对比。在固定模型和任务的条件下,Copilot 的 Harness 在 SWE-bench Verified、SWE-bench Pro、SkillsBench、TerminalBench 和 Win-Hill 等多个基准上表现一致。
- 关键发现:GitHub 宣称,Copilot harness 在任务解决率上与模型厂商的原生 Harness 持平,但在大多数配置下消耗的 Token 更少。这意味着更好的 token 经济性。
- 模型灵活性:GitHub 强调,Copilot 已支持超过 20 个模型,开发者可根据任务需求选择效率优先或质量优先的模型,不受单一厂商束缚。
- 行业意义:这是主流 AI 编码平台首次系统性地对比自身 Harness 与模型原生 Harness 的性能。结果显示,Harness 工程本身已成为决定编码 Agent 效率的关键变量,且独立于底层模型的能力。 🔗 GitHub 官方推文 | 博客详情
4️⃣ Cloudflare CEO:2026 上半年机器人流量首次超过人类,互联网商业模式将崩塌#
- 核心洞察:在近期的播客访谈中,Cloudflare 联合创始人兼 CEO Matthew Prince 透露,2026 年上半年,其平台上的机器人流量已经首次超过了人类流量。他预言“五年后互联网流量可能是现在的 1000 倍”。
- 商业模式危机:Prince 指出,过去 28 年互联网的商业模式是广告,但机器人不会点击广告。当绝大多数流量变为非人类时,广告模式将崩塌。他预测未来五年内,互联网的商业模式将发生根本性改变,微支付等新模式可能崛起。
- AI 安全警告:Prince 警告,未来两年网络上会接连发生非常可怕的安全事件,AI 模型寻找软件漏洞的能力极其强大。Cloudflare 自身已裁掉超过 20% 的团队,并指出“很多领导者心里其实很怕,不想当第一个动手的人”。
- 行业意义:作为全球最大的互联网基础设施之一,Cloudflare 的 CEO 给出了当前关于 AI 对互联网基础设施、商业模式和就业影响最直接的警示。Agent 驱动的流量暴增将从根本上重塑网络架构、成本结构和安全格局。 🔗 播客中文版 | 原文播客
5️⃣ 百度 Unlimited-OCR 登顶 HuggingFace 模型榜,OpenRouter 发布开源模型评测#
- 核心事件:百度团队的 Unlimited-OCR 模型今日登上 HuggingFace 排行榜第一名,引发了社区对 OCR 技术新进展的关注。
- 模型评测:OpenRouter 宣布持续对主流开源权重模型进行 GPQA 和 TAU-Bench 评测并公开结果。最新数据显示,Parasail 和 Zai 在相关排名中位列第一。这些数据被用于其 AutoExacto 元基准,默认用于工具调用的路由决策。
- 行业意义:OCR 模型的登顶标志着视觉文档理解仍是一个活跃的竞赛领域。与此同时,OpenRouter 等中间层正在进行系统性的模型能力评估,这为开发者选择模型和进行智能路由提供了数据基础。 🔗 AK 推文 | OpenRouter 推文
6️⃣ 美团技术团队系列深度解析:从 AI 开发范式到海报生成技术闭环#
- 核心干货:Datawhale 今日发布万字综述《从 Prompt 到 Loop 进化》,系统梳理了 AI 开发范式的四次浪潮:Prompt Engineering → Context Engineering → Harness Engineering → Loop Engineering,强调了在 Agent 时代,人类角色正在从执行者转变为循环架构设计师。
- AIGC 落地案例:美团技术团队同步发布了海报生成技术全景,详细拆解了 PosterCraft(ICLR 2026)、PosterOmni(CVPR 2026)和 PosterReward(CVPR 2026)三篇顶级论文,展示了“能生成、能编辑、能评判”的完整商业闭环。
- 行业意义:这组文章为行业奉献了从理论高度到工程实践的完整知识输出。Loop Engineering 概念的系统阐述,为开发者理解下一代 Agent 工作方式提供了清晰的思维框架。美团在海报生成上的全栈开源,展示了大型互联网公司如何将 AIGC 落地解决百万商家痛点。 🔗 Prompt 到 Loop 万字综述 | 美团海报生成
7️⃣ OpenAI Codex 周活达 500 万,Anthropic PM 分享内部 Agent 使用心得#
- Codex 增长数据:Lenny Rachitsky 在与 OpenAI Codex 桌面应用负责人 Andrew Ambrosino 的访谈中透露,Codex 使用量自 2 月以来增长了 6 倍,周活跃用户超过 500 万,且 OpenAI 几乎所有员工都经常使用 Codex。
- Anthropic 内部实践:Peter Yang 分享了 Anthropic Claude Managed Agents 产品负责人 Jess 的访谈,介绍了 Anthropic PM 如何利用 Agent 直接管理代码库、跟踪 PR、合成用户反馈。Jess 表示:“Agent 让我对产品的理解深度远超以往。”
- 开源记忆层:一个名为
second-brain的开源项目引发关注,它构建了一个部署在 Cloudflare Workers 上的 MCP 内存层,能让 Claude、ChatGPT、Cursor 和 Codex 共享同一个记忆系统,数据存储在用户自己的 D1、Vectorize 等基础设施中。 - 行业意义:这些信息叠加表明,AI Agent 的采用正从开发者和工程师,向产品经理、法务、销售等更广泛的职能群体渗透。Agent 正在从个人效率工具演变为组织级协作基础。 🔗 Lenny Rachitsky 访谈 Codex | Peter Yang 访谈 | 开源共享内存
8️⃣ Nous Research Hermes Agent 发布:MoA 预设性能超越 Opus 与 GPT#
- 核心发布:Nous Research 宣布 Hermes Agent 现在可以暴露其 Mixture-of-Agents 预设作为虚拟模型,使用户能够获得超出公开前沿模型的能力。在即将发布的基准上,其性能比 Opus 4.8 高出 8%,比 GPT 5.5 高出 11%。
- 技术实现:Hermes Agent 允许多个专家 Agent 协同工作,Yangyi 评论指出“哪怕相同的 Agent,也应该在不同时刻路由不同的模型”,强调了快慢脑逻辑和多 Agent 场景下的智能路由价值。
- 行业意义:MoA 架构的实用化意味着,在单一模型能力遇到瓶颈时,通过编排多个模型进行协作推理,能够取得超越单体前沿模型的效果。这为预算有限但追求极致性能的团队提供了另一种思路。 🔗 Nous Research 推文 | Yangyi 评论
⭐ GitHub 趋势#
1. Robbyant/lingbot-map ⭐ 今日 +372#
语言/许可: Python / Apache-2.0
总 Stars: 8.2k
仓库: GitHub
项目定位:
面向 3D 视觉研究者与空间 AI 工程师的流式场景重建基础模型,从连续图像流实时输出稠密几何与相机轨迹。
核心功能:
- 前馈式架构,单次前向完成全场景重建,无需迭代优化
- 分页 KV Cache 注意力机制(FlashInfer),支持超长序列(>10,000 帧)稳定推理
- 约 20 FPS(518×378 分辨率)下的在线重建,支持交互式实时预览
- 内置多种场景适配:空中、室内、室外大规模地图
技术亮点:
基于 Geometric Context Transformer,通过 Anchor Context + Pose-Reference Window + Trajectory Memory 统一了局部稠密几何、长程漂移校正与全局坐标定位于单一流式框架内。
2. browser-use/video-use ⭐ 今日 +196#
语言/许可: Python / MIT
总 Stars: 11.0k
仓库: GitHub
项目定位:
为内容创作者与视频编辑者设计的 LLM Agent 工作流,用自然语言指令驱动完整视频剪辑流水线。
核心功能:
- 语音转录 + 词级时间戳作为核心信号,而非暴力帧分析(12KB 文本代理 45M tokens 的视觉噪声)
- 自动去口语填充词、静默段,并输出可编辑的 EDL(编辑决策表)
- 支持并行子 Agent 生成动画叠加层(HyperFrames/Remotion/Manim)
- 提交渲染后自评估循环,在每个剪切边界检查输出质量,最多重试 3 次
技术亮点:
采用 Text + On-Demand Visuals 双通道方案:LLM 通过结构化转录文本 + 按需调用的 waveform/filmstrip 合成图进行推理,而非直接处理视频流,极大降低 token 消耗并保持词级剪切精度。
🟧 Hacker News 热议#
GLM 5.2 beats Claude in our benchmarks#
337 pts · 157 comments · site
📌 内容总结
- Semgrep 团队用自家 IDOR(不安全的直接对象引用)检测基准测试,比较不同模型的漏洞发现能力。核心问题是:性能有多少来自模型本身,多少来自外围的辅助框架(harness)。
- GLM 5.2(Zhipu AI 的开源模型,750B 参数 MoE,激活 40B)在仅给定提示和代码库、无任何端点发现辅助的情况下,F1 达到 39%,超过 Claude Code(32%)。每发现一个漏洞成本约 $0.17。
- 结论:辅助框架仍比模型本身重要——Semgrep 自家的多模态流水线(带端点发现)F1 达 53–61%。但 GLM 5.2 的表现表明,一个开箱即用的开源模型在特定任务上能以极低成本超越前沿代理。
💬 讨论总结
- 基准测试的严谨性遭质疑:多位评论者指出文章标题未明确标注对比的 Claude 具体模型(实际为 Opus 4.8)。有观点认为 Claude Code 本身是一个代理框架而非纯模型,与仅用提示的 GLM 相比不公平。
- “广告嫌疑”与误导性:部分读者认为这是一篇营销文章,测试仅针对 IDOR(被认为是最简单的漏洞类型),且对比对象不包括 Mythos。另有评论指出 Anthropic 对 Mythos 的宣传重点在于“生成可用 exploit”而非“发现漏洞”,文章未能体现这一点。
- 实用派观点:有用户反馈实际使用中 GLM 5.2 在编程和漏洞修复方面表现良好,且成本远低于 OpenAI/Anthropic。对于安全团队,开源模型可本地部署、成本低,是切实可行的选择。
- 安全限制的影响:多条评论推测 Claude 性能较低是因为安全护栏导致拒绝执行敏感命令,而非模型能力不足。如果使用 Anthropic 的商业安全服务去除限制,结果可能不同。
- 硬件门槛:753B 参数的模型需要 8 块 RTX6000(约 $80-100k)才能本地运行。量化版本可降低成本,但 Token 计费 API 在许多场景下更经济。
Knowledge Distillation of Black-Box Large Language Models#
20 pts · 8 comments · site
📌 内容总结
- 论文提出 Proxy-KD 方法,通过一个代理模型将黑盒大语言模型(如 GPT-4)的知识蒸馏到小模型中。传统黑盒蒸馏仅利用教师模型的输出,而 Proxy-KD 试图模拟教师的内部状态以提高知识迁移效率。
- 实验表明 Proxy-KD 不仅提升了黑盒蒸馏的性能,甚至超越了部分白盒蒸馏技术。
💬 讨论总结
- 论文时效性存疑:评论指出这是一篇 2024 年的论文,质疑为何现在重新发布。
- 地缘政治视角:少量评论将话题引向中美 AI 竞争,认为中国团队正在通过蒸馏等方式削弱美国 AI 公司的商业护城河,但观点偏向情绪化,缺乏技术讨论。
A way to exclude sensitive files issue still open for OpenAI Codex#
172 pts · 118 comments · site
📌 内容总结
- 一个持续近一年的 GitHub issue,请求 Codex 提供可靠的机制(如
.codexignore或全局配置文件)来阻止代理读取和上传敏感文件(如.env、.pem、.ssh/等)。 - 当前即使文件被
.gitignore忽略、或用@命令无法引用,代理仍可通过rg、cat等 shell 命令间接读取并上传内容。 - 多个用户指出 Claude Code 已有类似功能(通过
settings.local.json配置"deny": ["Read(.secret-dir)"]),而 Codex 在一年后仍未实现。这成为阻碍企业采购 Codex Team 版的关键瓶颈。
💬 讨论总结
- 共识:纯文件配置无法提供安全边界。大量评论指出,依赖一个文本文件(如
.agentignore)来阻止代理读取敏感文件本质上是不可靠的。代理可以绕过程序内的限制,通过 shell 工具直接读取文件内容并上传。 - 工程经验:安全应依赖 OS 级机制,而非应用层承诺。多位贡献者分享了实际方案:
- Unix 权限:
chmod 600或运行代理的用户不拥有敏感文件。 - 容器/沙箱:Docker、Apptainer、bwrap 等;限制文件系统访问范围,使代理物理上无法读取。
- macOS sandbox-exec:有用户验证可用正则规则阻止 Codex 读取
.env。 - 自定义补丁:有开发者直接在本地修改 Codex 的沙箱配置文件,强制合并限制规则。
- Unix 权限:
- 反对意见:少数人认为该功能是“虚假的安全感”,由于 LLM 行为不可预测,任何应用层的限制都可能被绕过,因此不应实现,用户应自行使用
chmod。但该观点被多人反驳,认为沙箱机制可以做到 OS 级强制。 - 商业现实:有多位企业用户表示,缺乏此功能是阻碍他们从 Claude 迁移到 Codex Team 的主要原因。
- 历史背景:讨论中出现了
.agentignore作为跨工具开放标准的提案,但被批评——标准虽好,但安全绝不能依赖于此。GitHub issue 最终回归到:任何“只靠应用层拒绝”的方案,都对恶意或误操作的代理无效。
今日洞察#
DSpark 开源:投机解码从论文走向工程事实标准。DeepSeek 不仅开源了模型 checkpoint,还开放了 DeepSpec 训练代码库(MIT 协议),这意味着任何部署了 V4 系列模型的团队都可以在几天内复现 1.5-5 倍的吞吐提升。更重要的是,DSpark 的“并行 backbone + 顺序 head”结构证明了投机解码在真实生产环境中并非理论玩具——它稳定提速 60% 以上且不牺牲质量。二阶影响:推理优化正在从“黑盒调度”转向“可复现的工程组件”,未来每个部署了大型 LLM 的团队都会默认接入类似的投机解码层,而非仅依靠硬件升级。
Harness 工程开始独立于模型能力决定 Agent 效率。GitHub 官方公布的 Copilot Agentic Harness 基准测试揭示了一个反直觉的事实:在固定模型的条件下,Harness 设计差异带来的 token 经济性差异足以改变部署决策。Copilot 的 Harness 在解决率持平的情况下消耗更少 token,这意味着编码 Agent 的竞争壁垒正从“谁有最好的模型”转向“谁有最有效的工具链和编排逻辑”。这对于所有独立模型厂商(如 Anthropic、Google)是一个信号——单靠模型能力优势不足以锁定用户,Harness 层的工程优化正在成为新的护城河。
Agent 安全工程正在从“应用层承诺”转向“OS 级强制”。Codex 上一个持续近一年的 issue(请求可靠的敏感文件排除机制)在 HN 上引发了 118 条深度讨论。共识明确:纯文本配置文件(如 .agentignore)无法提供安全边界,因为 Agent 可以通过 shell 工具绕过。Unix 权限、容器沙箱、macOS sandbox-exec 是唯一被验证有效的方案。二阶影响:企业采购 AI 编码工具时,安全能力(而非模型能力)正成为迁移阻力——多位用户明确表示“缺乏此功能是阻碍从 Claude 迁移到 Codex Team 的主因”。这意味着 Agent 基础架构供应商需要将 OS 级隔离作为产品核心特性,而非附属功能。