模型降价与Agent管理困局
- DeepSeek V4-Pro永久降价75%,推理成本骤降
- Qwen-3.7-max以1/9Claude成本在Agent任务中胜出
- Anthropic Glasswing发现超万漏洞,但修补周期成瓶颈
DeepSeek将V4-Pro API价格永久降至原价1/4;Qwen-3.7-max在Agent任务中以1.32美元实现+56%性能提升,成本仅为Claude的1/9。GitHub趋势中FinceptTerminal集成37个AI Agent。HN热议Anthropic Glasswing发现超万漏洞但平均修复需两周,同时Kanbots与Superset等多Agent管理工具进入讨论。
1️⃣ 💰 DeepSeek-V4-Pro 永久降价:开发者狂欢,Agent 构建成本骤降#
- 核心事件:DeepSeek 宣布将其 V4-Pro 模型的 API 折扣永久化。此前限时折扣已于 5 月 31 日结束,但新价格仅为原定价的 1/4。多个开发者反馈,充值后有“用不完”的感觉,尤其是其 Flash 模型。
- 行业影响:此举被社区称为“价格屠夫回归”,直接将同等水平模型的推理成本拉低了 3 倍。这将显著降低中小开发者和创业公司构建 Agent 类应用的准入门槛,可能引发新一轮基于 Agent 的应用创新潮。
- 关联事件:xAI 也宣布 Grok 订阅现可在 OpenCode 中直接授权登录使用,将 X Premium 会员的 Grok 用量作为通用推理资源。这表明模型即服务(MaaS)的定价和销售模式正在趋向灵活和普惠。 🔗 DeepSeek 官方公告 | 开发者评价 | xAI 与 OpenCode 集成
2️⃣ 🤖 Qwen-3.7-max “屠榜”:Agent 任务中低成本碾压 Claude 与 GPT#
- 第三方测评:由 Atomic Chat 发布的测试显示,在“编写能自我进化的俄罗斯方块 AI”的 Agent 任务中,Qwen-3.7-max 仅耗时 1.32 美元便实现了 +56% 的性能提升。作为对比,Claude Opus 4.7 花费 12.15 美元仅提升 28%,GPT-5.5 花费 2.85 美元仅提升 7%。
- 核心差距:Qwen 不仅在绝对性能提升上胜出,其成本仅为 Claude 的 1/9、GPT 的 1/2,展现出在长时间 Agent 循环下的极致性价比。
- 行业解读:OpenRouter 已正式上线 Qwen-3.7-max,专为 Agent 工作流(编码、办公、长周期自主执行)优化。这标志着在特定复杂任务上,优秀的开源模型正在挑战并超越闭源旗舰,为开发者提供了更务实的选择。 🔗 Atomic Chat 测试报告 | OpenRouter 上线 Qwen-3.7-max | InfoQ 报道
3️⃣ 🛡️ [持续跟踪] AI 安全攻防升级:Anthropic 发现超万漏洞,Perplexity 开源扫描器#
- Anthropic Project Glasswing:该合作项目自启动一个月来,已在关键软件中发现 超过一万个 高危或重大漏洞。Anthropic 警告,强大的模型(如 Claude Mythos Preview)将使漏洞发现量骤增,软件行业必须适应这一新常态,改变现有的补丁节奏和流程。
- Perplexity 开源 Bumblebee:Perplexity 宣布开源其内部使用的安全工具 Bumblebee。这是一款适用于 macOS 和 Linux 的只读扫描器,能够快速扫描开发者机器上的风险包、浏览器扩展和 AI 工具配置。连接 Perplexity Computer 后,还可自动触发深度扫描以应对新出现的供应链风险。
- 行业意义:AI 在安全领域的“军备竞赛”正在加速。一方面,AI 正在帮助发现前所未有的漏洞数量;另一方面,AI 本身的使用也催生了新的攻击面和防护需求。 🔗 Anthropic 官方声明 | Project Glasswing 详情 | Perplexity Bumblebee 开源公告
4️⃣ 🗺️ 多模态与内容溯源:Google DeepMind 扩展 SynthID,Project Genie 接入街景#
- SynthID 覆盖扩展:Google DeepMind 宣布扩大 SynthID 水印技术的合作范围。这是一个针对 AI 生成内容的不可见水印。同时,用户现在可以直接在 Gemini App 或 Google 搜索中查询内容是否为 AI 生成,这是 AI 内容溯源与透明度领域的重要一步。
- Project Genie 接入街景:Project Genie 将谷歌地图的 街景(Street View)图像整合进来。符合条件的 Google AI Ultra 用户现在可以将美国地点的真实街景图像,通过 Project Genie 转化为全新的交互式 3D 世界。这极大地扩展了 AI 创意工具与现实世界数据的结合能力。 🔗 Google DeepMind 关于 SynthID 扩展的推文 | Project Genie 接入街景
5️⃣ 🛠️ 开发者工具密集更新:JetBrains Rider 测试成本减半,GitHub Copilot 再获认证#
- Rider 的 AI 测试技能:JetBrains 为 Rider 2026.2 EAP 带来了一个新的 AI Agent 技能——
finding-tests。该技能能利用 Rider 内置的 dotCover 代码覆盖率数据,直接引导 AI Agent 找到已有测试文件的位置,避免 Agent 在项目中盲目搜索。根据其内部基准测试,这项优化可以将测试生成过程中的 Token 消耗 降低高达 50%,大幅节约 AI 使用成本。 - GitHub Copilot 三连冠:GitHub 宣布,被 Gartner 评为 2026 年企业 AI 编码代理(Magic Quadrant™ for Enterprise AI Coding Agents)的领导者,这已是连续第三年。报告指出,GitHub 在“执行力”维度上排名最高。GitHub 强调,真正的瓶颈已从“生成代码”转向“审查、安全加固和部署代码”。 🔗 JetBrains Rider AI 测试技能 | GitHub 获得 Gartner 领导者认证
⭐ GitHub 趋势#
1. Fincept-Corporation/FinceptTerminal ⭐ 今日 +367#
语言/许可: C++ / AGPL-3.0
总 Stars: 22,624
仓库: GitHub
项目定位:
面向量化分析师和交易员的桌面级金融智能终端,集成 AI Agent 投资框架与多源实时数据,替代 Bloomberg Terminal 的开源方案。
核心功能:
- 内置 37 个 AI Agent(巴菲特、格雷厄姆等策略),支持本地 LLM 及 OpenAI、Anthropic、Gemini 等多提供商
- 100+ 数据连接器(Yahoo Finance、FRED、World Bank、交易所 API 等)
- 实时行情与交易:加密货币/股票/算法交易,16 家券商接入
- QuantLib 量化分析套件(定价、风险、随机过程、波动率等)
技术亮点:
纯原生 C++20 + Qt6 桌面应用,嵌入式 Python 负责分析逻辑,支持 Docker 与跨平台一键构建。
🟧 Hacker News 热议#
Project Glasswing: An Initial Update#
265 pts · 179 comments · anthropic.com
📌 内容总结
- Anthropic 公布其安全合作项目 Glasswing 首月成果:Mythos Preview 模型与约 50 家合作伙伴共发现超一万个高危/严重漏洞。Cloudflare 在其关键路径代码中找到 2000 个 bug(400 高危),误报率低于人工;Mozilla 在 Firefox 150 中找到 271 个漏洞(是 Opus 4.6 在 Firefox 148 中的 10 倍以上)。开源方面:扫描了 1000+ 项目,模型预测 6202 个高危/严重,经独立验证后 62.4% 确认为高危/严重,整体真阳性率 90.6%。
- HN 关注点:
- 漏洞发现速度已远超修复能力,平均每个高危漏洞需两周修补。
- Mythos 真实能力是否显著优于现有公开模型(Opus 4.6 / GPT-5.5)?
- 模型仅限邀请使用,不公开;营销成分有多大?
- 针对 curl 的测试结果(5 个候选仅 1 个真实)引发对真阳性率统计方法的质疑。
💬 讨论总结
- 共识观点:Mythos 在安全扫描场景下确有实际能力提升。Cloudflare、Mozilla 的公开报告提供了正面证据;独立安全研究公司 XBOW 也给出正面评价。
- 质疑:对比基线缺乏统一设置(Mozilla 上次测试范围更小);“一万个漏洞”数字未经独立验证;curl 作者 Daniel 反馈只有 20% 的候选是真实漏洞,与文章宣称的 90% 真阳性率存在矛盾。单漏洞成本粗略估计 $20k,商用门槛高。
- 工程经验:漏洞修补全流程才是当前瓶颈。维护者已被低质量 AI 漏洞报告淹没,需要更好的验证和披露流程。建议组织缩短补丁周期和部署时间,并加强日志与 MFA 等基础防护。
- 商业现实:Anthropic 限制 Mythos 访问,将其作为安全服务出售给筛选后的合作伙伴及政府,不公开发布。这积累了高质量安全数据集,可用于后续模型训练;同时保持对非盟友国家的技术优势。
- 风险/限制:若类似能力模型被公开释放,攻击门槛将大幅降低。目前 Mythos 只用于防御,但若保护措施不足,存在误用风险。
Open source Kanban desktop app that runs parallel agents on every card#
146 pts · 86 comments · kanbots.dev
📌 内容总结
- 作者想做一个类似看板的桌面应用,让用户能为每张卡片分配一个 Claude Code 或 Codex agent,各自在独立的 git worktree 中并行运行。支持手动调度和“自动驾驶”模式(自动拆分任务、循环执行)、决策提示、成本追踪,且完全本地优先(SQLite 存储,代码不出机器)。
- HN 关注点:
- 本地优先、开源、无平台依赖是核心卖点。
- 与已有工具(Vibe Kanban、Cline Kanban、OpenAI Symphony)的异同。
- agent 并行运行后,如何保证代码质量和可审查性?
- Claude Code 即将转向 API 定价(6 月 15 日),将显著影响成本。
💬 讨论总结
- 共识观点:本地优先、开放源代码的设计受到认可。UI 风格美观但与许多 AI 驱动的 SaaS 产品雷同(“Claude 设计风格”),缺乏个性。
- 质疑:多数评论者表示尚不信任 agent 夜间无人监督运行——代码质量不可控,最终仍需人工审查和修改。依赖特定 CLI(Claude Code/Codex)导致随提供商定价变更而承受风险。多 agent 状态同步和冲突解决机制不明确。
- 工程经验:建议与 GitHub/Jira 等现有工具体系集成;强调“人要在循环中”是当前实践共识。类似产品(Vibe Kanban 已停止维护)表明市场还在早期探索阶段。
- 历史背景:类似概念已有多个项目(Vibe Kanban、Multica、Cline Kanban),均处于类似成熟度水平,说明 agent 工作流管理尚未形成标准方案。
Launch HN: Superset (YC P26) – IDE for the agents era#
72 pts · 86 comments · github.com/superset-sh
📌 内容总结
- 作者想做一个以终端为中心的桌面应用,用于管理多个 CLI 编码 agent(Claude Code、Codex、Gemini CLI 等)。每个任务在一个独立的 git worktree 中运行,提供统一监控、差异查看、工作区管理、远程工作区和一键切换 IDE 打开。采用 Electron + Bun + React 构建,源码可在 Elastic License 2.0 下查看和自托管。
- HN 关注点:
- 名称与 Apache Superset 冲突,引发大量混淆和批评。
- 与 Conductor、Antigravity、Cline Kanban 等竞品功能重叠,差异化在于“终端优先”和远程工作区支持。
- 性能问题:部分用户反馈冻结、内存占用达 2GB。
- 登录墙:免费版要求注册云账号,引起不适应。
- 定价:线性集成等团队功能在付费版($20/月)。
💬 讨论总结
- 共识观点:管理多个 agent 工作区的需求存在,方向合理。部分用户从 Conductor 切换过来,认可终端优先设计。远程工作区、预设脚本等特性有实际价值。
- 质疑:名称冲突是显著减分项。性能不稳定(2GB 内存、界面卡顿)影响体验。登录才能使用免费版令不少用户困惑。目前市场上类似工具众多,差异化不够明显。Agent swarm 生产级应用仍属少数,实际 ROI 存疑。
- 工程经验:环境隔离(worktree)、端口冲突、合并冲突是 agent 并行工作的核心工程问题。setup/teardown 脚本是解决环境复用的一种思路。在 agent 收费改向 API 定价的背景下,使用多个 agent 的成本增速很快。
- 商业现实:YC 项目,市场拥挤。团队希望通过云服务(远程工作区、协作功能)和团队集成(Linear、Slack)实现商业化。当前免费版已提供基础功能,付费点尚需验证。
💡 今日洞察#
[叙事错位] 模型推理成本骤降(DeepSeek降价75%、Qwen-3.7-max成本仅为Claude 1/9)正催生多Agent并行工作流需求,然而HN上两个代表性工具Kanbots与Superset却暴露出工程准备不足:Kanbots要求依赖特定CLI(Claude Code/Codex),且用户普遍不信任“无人监督”模式;Superset面临2GB内存占用、名称冲突和登录墙等问题。媒体侧(RSS)聚焦Agent构建成本下降的乐观叙事,开发者侧(HN)则在争论“人必须循环中”这一基础命题——Agent工作流管理至今未形成标准方案,成本降低并未同步解决质量控制与工程集成痛点。
[盲区发掘] Anthropic Glasswing项目发现超万漏洞,HN讨论核心已从“数量惊人”转向“修补速度远不及发现速度”——平均每个高危漏洞需两周修复,且低质量AI漏洞报告正淹没维护者。这与RSS中JetBrains Rider测试Token消耗“降低50%”、GitHub Copilot连续三年Gartner领导者形成鲜明反差:开发工具在降低生产成本上持续进步,但安全自动化工具(Perplexity Bumblebee虽开源但尚处早期)未能匹配漏洞发现增速。安全领域“发现-修补”剪刀差扩大,才是当前工程实践真正被忽略的瓶颈。