Cursor自研模型反超Opus 4.6！价格脚踝斩，氛围编程沸腾了

标题和作者

本文的标题为“Cursor自研模型反超Opus 4.6！价格脚踝斩，氛围编程沸腾了”，作者为“一水”，发布于2026年3月20日，来源为“量子位”。文章主要讲述了Cursor公司推出了其自主研发的编程模型Composer 2，该模型在性能上超越了行业领先的Claude Opus 4.6，且价格大幅下降，甚至达到了“脚踝斩”的程度。作者一水是量子位网站的资深作者，专注于AI科技领域的报道。

摘要

本文主要介绍了Cursor公司发布的Composer 2编程模型及其快速版本Composer 2 Fast，旨在解决长任务中上下文窗口受限的问题。在此之前，业界已有多种尝试解决上下文压缩的方法，但往往会导致信息丢失或效率低下。Cursor通过引入一种新的强化学习方法，即让模型学会主动“做笔记”总结上下文，从而在保持性能的同时大幅降低了Token消耗和成本。Composer 2在Terminal-Bench 2.0和SWE-bench Multilingual等基准测试中表现优异，甚至在某些测试中超越了GPT-5.4和Claude Opus 4.6，且价格仅为对手的几分之一。这种新方法并非简单的推理技巧，而是通过训练内化而成的能力，使得模型在长链条任务中表现出色，例如成功将Doom游戏移植到MIPS架构上。
本文中涉及的术语解释如下：“脚踝斩”通常用来形容价格下跌幅度极大，比“腰斩”（减半）还要厉害；“Token”是自然语言处理中的一种计量单位，代表文本的一个片段；“上下文窗口”指模型一次能处理的最大文本长度；“自我总结”是指模型在处理长任务时主动暂停并生成当前状态的摘要，以保留关键信息；“强化学习”是一种通过环境反馈来优化模型行为的方法；“Terminal-Bench 2.0”是衡量智能体终端操作能力的基准测试；“SWE-bench Multilingual”是一个评估软件工程任务解决能力的基准。

主要主题和概念

主题一：Composer 2的性能突破与成本革命
What：Composer 2是Cursor推出的新一代编程模型，Composer 2 Fast是其速度更快的变体。Cursor的目标是兼顾智能与成本的最优组合，旨在应对“龙虾”爆火后Token消耗激增的现状。
Why：随着Token消耗呈指数级增长，云厂商和大模型公司都在涨价，但Cursor选择反其道而行之。用户对于高性价比的编程工具需求迫切，单纯依赖Claude等外部模型已无法满足对成本和性能的双重追求。
How：Cursor通过引入一种新的强化学习方法，而非依赖推理技巧，实现了性能与价格的平衡。这种训练方法使得模型能够高效处理复杂任务，同时将成本控制在极低水平。
本文中涉及的术语解释如下：“脚踝斩”比喻价格下跌极多，几乎到了脚踝骨的程度；“Terminal-Bench 2.0”是衡量智能体终端操作能力的基准测试；“SWE-bench Multilingual”是一个评估软件工程任务解决能力的基准。

主题二：解决长上下文任务的“自我总结”机制
What：现有的AI编程助手在处理长任务时，由于上下文窗口有限，往往会出现遗忘关键信息、任务跑偏的问题。Cursor提出的“自我总结”机制，是指模型在固定Token长度触发点主动停止，生成当前对话的摘要。
Why：传统的压缩方法（如摘要、滑动窗口或潜在空间压缩）虽然能突破长度限制，但容易导致关键信息丢失，或者压缩后的内容依然冗长。模型在长链条任务中，往往因为记不住之前的步骤而失败。
How：Cursor将“自我总结”能力训练成模型的内生能力。在训练过程中，如果模型总结得好，后续任务容易成功，就会获得高奖励；反之则受惩罚。这种机制让模型学会了筛选关键信息，将原本需要几万Token的上下文压缩到几千Token，且错误率降低50%。
本文中涉及的术语解释如下：“自我总结”即模型自己给自己写会议纪要或笔记；“强化学习”通过奖励和惩罚机制引导模型学习；“潜在空间压缩”是一种将文本压缩成向量的高级技术。

重要引文

论点：Cursor的Composer 2模型在性能上全面超越了Claude Opus 4.6，并且在价格上具有压倒性优势，证明了其新强化学习方法的有效性。
论据：Cursor官方数据显示，Composer 2在Terminal-Bench 2.0上水平跃居GPT-5.4和Claude Opus 4.6之间；其标准版输入价格为0.5美元/百万tokens，输出为2.5美元/百万tokens，相比对手价格极低。在解决长任务时，Composer 2的提示词仅为“Please summarize the conversation”，压缩后的输出平均仅1000个tokens，仅为传统方法的1/5，且错误减少约50%。在Doom on MIPS任务中，Composer 2在170轮交互后找到解法，将10万+ tokens压缩至1000。
论证：Cursor通过列举具体的基准测试分数、详细的价格对比以及长任务处理的实际案例，有力地证明了Composer 2不仅更聪明，而且更省钱。特别是通过展示“自我总结”机制在减少Token消耗和提高准确率上的具体数据，证明了该方法在解决长链条任务瓶颈上的优越性。
本文中涉及的术语解释如下：“脚踝斩”形容价格下跌极多；“Terminal-Bench 2.0”是衡量智能体终端操作能力的基准测试；“SWE-bench Multilingual”是一个评估软件工程任务解决能力的基准。

总结

Cursor此次发布的Composer 2及其快速版，标志着其在编程AI领域实现了从依赖外部模型到自研模型的华丽转身。其核心亮点在于通过一种创新的强化学习方法，成功解决了困扰业界的长上下文任务难题，实现了性能与成本的双重突破。Composer 2不仅击败了Claude Opus 4.6，还通过大幅降低Token消耗（减少至传统方法的1/5）和错误率，为开发者提供了前所未有的高性价比选择。这一突破不仅验证了“自我总结”训练方法的有效性，也预示着未来编程工具将更加智能化和低成本化。Cursor已开始研发Composer 3，并引发了业界对其是否开源的期待，未来值得关注。