标题和作者

本文的标题为“Cursor自研模型反超Opus 4.6!价格脚踝斩,氛围编程沸腾了”,作者为“一水”,发布于2026年3月20日,来源为“量子位”。文章主要讲述了Cursor公司推出了其自主研发的编程模型Composer 2,该模型在性能上超越了行业领先的Claude Opus 4.6,且价格大幅下降,甚至达到了“脚踝斩”的程度。作者一水是量子位网站的资深作者,专注于AI科技领域的报道。

摘要

本文主要介绍了Cursor公司发布的Composer 2编程模型及其快速版本Composer 2 Fast,旨在解决长任务中上下文窗口受限的问题。在此之前,业界已有多种尝试解决上下文压缩的方法,但往往会导致信息丢失或效率低下。Cursor通过引入一种新的强化学习方法,即让模型学会主动“做笔记”总结上下文,从而在保持性能的同时大幅降低了Token消耗和成本。Composer 2在Terminal-Bench 2.0和SWE-bench Multilingual等基准测试中表现优异,甚至在某些测试中超越了GPT-5.4和Claude Opus 4.6,且价格仅为对手的几分之一。这种新方法并非简单的推理技巧,而是通过训练内化而成的能力,使得模型在长链条任务中表现出色,例如成功将Doom游戏移植到MIPS架构上。
本文中涉及的术语解释如下:“脚踝斩”通常用来形容价格下跌幅度极大,比“腰斩”(减半)还要厉害;“Token”是自然语言处理中的一种计量单位,代表文本的一个片段;“上下文窗口”指模型一次能处理的最大文本长度;“自我总结”是指模型在处理长任务时主动暂停并生成当前状态的摘要,以保留关键信息;“强化学习”是一种通过环境反馈来优化模型行为的方法;“Terminal-Bench 2.0”是衡量智能体终端操作能力的基准测试;“SWE-bench Multilingual”是一个评估软件工程任务解决能力的基准。

主要主题和概念

主题一:Composer 2的性能突破与成本革命
What:Composer 2是Cursor推出的新一代编程模型,Composer 2 Fast是其速度更快的变体。Cursor的目标是兼顾智能与成本的最优组合,旨在应对“龙虾”爆火后Token消耗激增的现状。
Why:随着Token消耗呈指数级增长,云厂商和大模型公司都在涨价,但Cursor选择反其道而行之。用户对于高性价比的编程工具需求迫切,单纯依赖Claude等外部模型已无法满足对成本和性能的双重追求。
How:Cursor通过引入一种新的强化学习方法,而非依赖推理技巧,实现了性能与价格的平衡。这种训练方法使得模型能够高效处理复杂任务,同时将成本控制在极低水平。
本文中涉及的术语解释如下:“脚踝斩”比喻价格下跌极多,几乎到了脚踝骨的程度;“Terminal-Bench 2.0”是衡量智能体终端操作能力的基准测试;“SWE-bench Multilingual”是一个评估软件工程任务解决能力的基准。

主题二:解决长上下文任务的“自我总结”机制
What:现有的AI编程助手在处理长任务时,由于上下文窗口有限,往往会出现遗忘关键信息、任务跑偏的问题。Cursor提出的“自我总结”机制,是指模型在固定Token长度触发点主动停止,生成当前对话的摘要。
Why:传统的压缩方法(如摘要、滑动窗口或潜在空间压缩)虽然能突破长度限制,但容易导致关键信息丢失,或者压缩后的内容依然冗长。模型在长链条任务中,往往因为记不住之前的步骤而失败。
How:Cursor将“自我总结”能力训练成模型的内生能力。在训练过程中,如果模型总结得好,后续任务容易成功,就会获得高奖励;反之则受惩罚。这种机制让模型学会了筛选关键信息,将原本需要几万Token的上下文压缩到几千Token,且错误率降低50%。
本文中涉及的术语解释如下:“自我总结”即模型自己给自己写会议纪要或笔记;“强化学习”通过奖励和惩罚机制引导模型学习;“潜在空间压缩”是一种将文本压缩成向量的高级技术。

重要引文

论点:Cursor的Composer 2模型在性能上全面超越了Claude Opus 4.6,并且在价格上具有压倒性优势,证明了其新强化学习方法的有效性。
论据:Cursor官方数据显示,Composer 2在Terminal-Bench 2.0上水平跃居GPT-5.4和Claude Opus 4.6之间;其标准版输入价格为0.5美元/百万tokens,输出为2.5美元/百万tokens,相比对手价格极低。在解决长任务时,Composer 2的提示词仅为“Please summarize the conversation”,压缩后的输出平均仅1000个tokens,仅为传统方法的1/5,且错误减少约50%。在Doom on MIPS任务中,Composer 2在170轮交互后找到解法,将10万+ tokens压缩至1000。
论证:Cursor通过列举具体的基准测试分数、详细的价格对比以及长任务处理的实际案例,有力地证明了Composer 2不仅更聪明,而且更省钱。特别是通过展示“自我总结”机制在减少Token消耗和提高准确率上的具体数据,证明了该方法在解决长链条任务瓶颈上的优越性。
本文中涉及的术语解释如下:“脚踝斩”形容价格下跌极多;“Terminal-Bench 2.0”是衡量智能体终端操作能力的基准测试;“SWE-bench Multilingual”是一个评估软件工程任务解决能力的基准。

总结

Cursor此次发布的Composer 2及其快速版,标志着其在编程AI领域实现了从依赖外部模型到自研模型的华丽转身。其核心亮点在于通过一种创新的强化学习方法,成功解决了困扰业界的长上下文任务难题,实现了性能与成本的双重突破。Composer 2不仅击败了Claude Opus 4.6,还通过大幅降低Token消耗(减少至传统方法的1/5)和错误率,为开发者提供了前所未有的高性价比选择。这一突破不仅验证了“自我总结”训练方法的有效性,也预示着未来编程工具将更加智能化和低成本化。Cursor已开始研发Composer 3,并引发了业界对其是否开源的期待,未来值得关注。