Cursor 发布了首份开发者习惯报告(Developer Habits Report),基于 2025 年 1 月至 2026 年 5 月的真实产品数据,量化了 AI 编码工具如何改变软件开发。报告围绕五大主题展开,用数据回答了一个核心问题:AI 到底让开发者快了多少?
一、开发者加速:代码产出翻倍#
整体产出激增#
最直观的变化是代码产出的爆发式增长:
- 每周人均代码行数从 2025 年初的 3.6K 增长到 2026 年 5 月的 8.6K,增长 2.4 倍
- 增长在 2026 年初显著加速,从 5.5K 跃升至 8.6K

虽然”代码行数”不是完美的生产力指标,但作为方向性基准,这个增长幅度足够惊人。
PR 规模扩大#
开发者不仅写得更多,单次提交的规模也在扩大:
- 单个 PR 代码行数(p75 分位)从 126 行增长到 345 行,增长 2.7 倍
- Mega PR(≥1000 行变更)占比从 8% 增至 13.8%


2026 年 1 月出现明显跳跃,与新一代模型(如 GPT-5.5、Opus 4.7)和 Agent 能力提升同步。开发者开始用 AI 处理更大粒度的工作单元。
另一面的思考:Mega PR 增长是双刃剑。传统软件工程推崇 Small PR、Frequent PR、Easy Review,因为 Review 成本低、回滚容易、Bug 定位简单。当一个 Agent 一口气生成 30 个文件、1000+ 行代码时,人类从”写代码”变成”审核 AI 代码”,Review 质量可能下降。Cursor 后来推出 Bugbot,本质上就是因为 AI 生成代码越来越多,人类 Review 已经跟不上。
Agent 会话深度增加#
Coding Agent 不再是简单的”代码补全”,而是执行复杂的多步骤任务:
- 近两个月内,平均每次会话的工具调用次数从 113 增至 145,增长 30%
- Agent 频繁执行:读写文件、搜索代码、运行 shell 命令、浏览网页

这意味着 Agent 正在承担更复杂的工程任务,而非仅仅生成代码片段。
AI 代码存活率提升#
生成代码的”存活率”是质量的重要指标:
- 60 分钟后仍保留的 AI 代码比例从 76% 提升至 81%

这说明开发者修改/删除 AI 代码的比例下降,对 AI 生成代码的信任度提升。
二、智能经济学:成本差异与性价比#
模型成本差异巨大#
不同模型家族的成本差异远超预期:

| 模型 | 成本/请求 | 成本/接受行 |
|---|---|---|
| Opus 4.7 | $1.57 | 1.10¢ |
| Opus 4.6 | $0.86 | 1.19¢ |
| GPT-5.5 | $0.81 | 1.09¢ |
| GPT-5.4 | $0.46 | 0.54¢ |
| Sonnet 4.6 | $0.44 | 0.54¢ |
| GPT-5.3 Codex | $0.30 | 0.56¢ |
| Composer 2.5 | $0.18 | 0.18¢ |
关键发现:
- 按请求计算,成本差异达 9 倍(0.18)
- 按接受代码行计算,差异缩小至 7 倍(1.19¢ vs 0.18¢)

高成本模型通过生成更多可接受代码,部分弥补了成本劣势
成本-质量前沿#
Cursor 在内部评测套件 CursorBench 3.1 上测试了不同模型的表现:

- Composer 2.5:$0.55/任务,63.2% 准确率(性价比之王)
- Opus 4.7 (max):$11.02/任务,64.8% 准确率(质量天花板)
- GPT-5.5 (extra high):$4.37/任务,64.3% 准确率(平衡选择)
值得注意的是,Composer 2.5 是 Cursor 自研的编码专用模型,以不到 Opus 4.7 (max) 1/20 的成本,达到了 97.5% 的准确率。这可能代表了新一代专用编码模型的方向:针对编码任务深度优化,而非追求通用能力。
不过需要指出,这是 Cursor 在自家报告中展示自家模型的表现,且评测基于 Cursor 内部的 CursorBench 套件。在其他平台或评测标准下,结果可能有所不同。
三、超级用户鸿沟:AI 放大不平等#
使用高度集中#
Cursor 用洛伦兹曲线和基尼系数量化了 AI 使用的不平等程度:
- AI 代码行数 Gini 0.77(高度集中)
- AI 支出 Gini 0.75
- Token 消耗 Gini 0.72

基尼系数越接近 1,分布越不平等。0.77 意味着 Top 5% 用户占据约 50% 的 AI 活动。
产出差距扩大#
顶尖开发者与普通开发者的产出差距正在拉大:
- p99 开发者产出是中位数的 46 倍(AI 代码行/天)
- p99 开发者合并 PR 数是中位数的 15 倍
- p90 开发者产出是中位数的 10 倍(差距小得多)
更直观的绝对数字:
- 2025 年初:p90 为 2.5K 行/周,p50 为 176 行/周
- 2026 年 5 月:p90 为 8.8K 行/周,p50 为 712 行/周

虽然相对倍数从 14 倍降至 12 倍,但绝对差距从 2.3K 行扩大到 8.1K 行。

为什么会出现鸿沟?#
AI 工具在提升所有人生产力的同时,放大了顶尖开发者的优势。可能的原因:
- Prompt 工程能力:超级用户更擅长与 AI 协作
- 任务分解能力:知道如何将复杂任务拆解为 AI 可处理的单元
- 上下文管理:更好地利用缓存和上下文窗口
- 工具链整合:将 AI 深度整合到工作流中
深层含义:这与历史技术革命完全一致——Excel 没有消灭顶级分析师,Photoshop 没有消灭顶级设计师,Google 没有消灭顶级程序员。AI 是放大器而非均衡器,高手获得指数级收益,普通人只是生成更多代码。
四、上下文崛起:从生成到理解#
输入/输出比激增#
模型的工作模式正在发生根本性转变:
- Input/Output Token 比率从 4.5× 增至 12.4×(2026 年 1-5 月)
- 模型在生成每一行代码前,消耗的上下文是输出的 12 倍以上

这是”先读后写”的范式转变:模型花更多时间理解代码库,而非急于生成。
输入 Token 主导非缓存成本#
Token 构成的变化印证了这一趋势:
- 输入 Token 占非缓存 Token 的 90%+(从 82% 增至 92%)
- 按价格等价计算,输入成本占比从 47% 增至 70%


关键洞察:优化上下文管理比优化输出质量更重要。未来 AI 编码工具的竞争力将取决于如何高效利用上下文窗口。
缓存读取主导总 Token 活动#
加入缓存后,Token 构成更加极端(2026 年 5 月):
- Cache Read: 89.9%
- Cache Write: 2.5%
- Input: 7.0%
- Output: 0.6%

Agent 工作高度依赖缓存复用,而非每次从头读取。Cursor 在博客中提到,他们持续优化跨模型/提供商的缓存策略。
结论:上下文窗口扩大 + Prompt Caching 是 AI 编码能力跃升的基础设施。没有高效缓存,Agent 无法处理复杂任务。
更深层的变化:Token 增长主要来自输入而非输出,说明 AI 越来越像是在阅读代码库、文档、PR、Issue、历史记录,然后才开始写代码。Coding 正在从”生成代码问题”变成”管理上下文问题”。未来竞争优势会更多体现在谁能组织 Context、构建知识图谱、维护 Rules、管理长期记忆。
五、自动化转向:从工具到系统#
自动接受率飙升#
开发者对 AI 的信任度正在快速提升:
- 无需人工审查即提交的 AI 变更占比从 7% 增至 38%(5 倍增长)
- 这意味着超过 1/3 的 AI 代码直接进入 commit,跳过人工 diff review

这是从”辅助工具”到”自主系统”的关键转折点。
需要警惕的是:这个数据有两种解读——表面上是 AI 越来越强、代码质量提升;但也可能是人类越来越懒得检查、审核疲劳。这两种解释在数据上无法区分。连 Cursor CEO 自己都公开警告:不要把 AI 当成无需审查的代码生成器,否则系统最终会崩塌。
自动化工作流扩散#
Cursor 展示了三条增长曲线(具体数值未公开):
- Automation agents(通用自动化)
- Security review automation(安全审查自动化,增长最快)
- SDK runs(可编程 Agent 平台,最新趋势)

安全审查成为首个规模化自动化场景,这并非偶然。安全审查具备两个关键特征:
- 规则明确:有清晰的检查清单(SQL 注入、XSS、敏感信息泄露等)
- 可验证性:结果可以通过测试和扫描工具验证
这为其他自动化场景提供了启示:结构化、可验证的任务最适合自动化。
结语#
这份报告用真实数据量化了”AI 如何改变编程”。除了那些快速增长的曲线,还有一些需要注意的事实:
-
软件开发正在从编程问题变成上下文管理与审查问题。Token 增长主要来自输入而非输出,说明未来更重要的能力是定义任务、组织上下文、审查结果和维护系统复杂度。输入 Token 成本占 70%,意味着优化上下文管理的重要性,Prompt Caching 已成为生产级 AI 编码工具的刚需。
-
生产力提升与技术债务并存。代码量增长不等于价值增长,Mega PR 增加可能意味着审核能力被突破,自动接受率提升可能是信任也可能是疲劳。
-
AI 放大不平等而非拉平差距。Power User Gap 的扩大说明,AI 是放大器而非均衡器——高手获得指数级收益,普通人只是生成更多代码。p99 用户的工作流可能代表未来 2-3 年的主流模式,值得深入研究他们如何分解任务、管理上下文、整合 AI 到工作流。
- 数据来源: Cursor 产品和工程数据(Agent 使用、Token 消耗、PR 活动等)
- 相关链接: Cursor Developer Habits Report