标题和作者
本文标题为“阶跃Step 3.7 Flash登顶AA榜:速度、性价比、端到端三项第一”,作者为量子位的闻乐。文章主要介绍了阶跃星辰最新发布的Step 3.7 Flash模型,这是一款在OpenRouter、AA榜(Artificial Analysis榜单)以及HuggingFace上表现抢眼的模型。作者通过趣味实测(如教人开飞机、模拟40个虚拟用户投票)展示了该模型在速度、成本和多模态任务上的卓越能力,探讨了在Agent时代大模型竞争焦点从“智力”向“效率”转移的趋势。
摘要
本文介绍了阶跃星辰发布的Step 3.7 Flash模型,这是一款在AA榜上登顶、以速度、性价比和端到端能力著称的新模型。在此之前,大模型圈的竞争焦点主要在于单次问答的智力上限,各家模型致力于刷Benchmark。然而,随着Agent成为主流落地形态,单纯的智力比拼已不适用,因为Agent需要高频调用工具,推理延迟和Token消耗成倍飙升,成为了落地的核心瓶颈。本文通过实测展示了Step 3.7 Flash的具体做法,包括多模态理解、工具编排以及模拟40个虚拟用户的多Agent集群投票,证明了其能够更快速、更稳定地完成复杂任务。结果显示,该模型在速度上达到416 tokens/s,单任务成本仅为Claude Opus 4.6的约1/9,编程能力达到Claude的97%,表现优异。
本文提到的关键术语解释如下:Agent(智能体)是指具备感知、规划和行动能力的AI系统,能够自主调用工具完成复杂任务;Token是AI处理文本的基本单位,用于衡量模型计算量;AA榜是Artificial Analysis推出的评估大模型性能的权威榜单;Token效率则是指模型在消耗相同资源下产出的有效结果数量。
主要主题和概念
主题一:大模型竞赛的赛点转移:从单点最强到效率优先
What:大模型领域的竞争焦点发生了转移,不再单纯比拼单次问答的上限,而是转向在Agent工作链路中的整体效率,即推理速度和调用成本。
Why:在真实的Agent应用中,AI需要反复调用工具、多轮检索。单次回答慢两秒看似无关紧要,但在高频交互下,延迟累积会严重影响用户体验,高昂的Token消耗也会导致企业账单爆炸,成为落地的核心阻碍。
How:Step 3.7 Flash通过优化底层推理系统工程,实现了极高的吞吐量,确保在单位时间内能处理更多任务,从而在成本和速度上取得优势。
主题二:多Agent集群能力的实战验证
What:考察模型在长程多轮任务中,能否保持角色一致性并稳定调用工具的能力,具体通过模拟40个不同背景的虚拟用户进行投票决策来测试。
Why:为了验证模型在复杂、多角色的协作场景下的稳定性,防止在长时间运行中出现角色混淆或任务跑偏,这对于构建复杂的业务流程至关重要。
How:研究者利用模型生成40个具有差异化特征的虚拟用户画像,并将这些画像分别投喂给模型,让每个Agent基于自身人设进行排序和投票,最后汇总生成可视化看板。
主题二解释:多Agent集群是指由多个具有不同角色或能力的AI智能体组成的协作系统;Persona(人设)是指为AI角色设定的人格特征、背景和偏好,用于确保AI输出符合特定场景逻辑。
重要引文
论点:Step 3.7 Flash凭借其卓越的Token效率,在速度和成本上实现了对现有主流模型的超越,证明了其在企业级Agent市场中的巨大潜力。
论据:测试数据显示,该模型在不使用特别推理加速的情况下,推理速度最高可达416 tokens/s,远超此前最快的GPT-5.3的70多tps;其缓存命中率高达86.1%,位列全球第二;单任务成本仅为Claude Opus 4.6的约1/9,但编程能力却达到了Claude的97%。
论证:这些数据有力地证明了在Agent场景中,Token效率(即单位成本下的输出量)比单纯的智力测试分数更具实用价值。高速度和高缓存命中率意味着模型能更快速地处理重复性上下文并降低延迟,而低成本和高编程能力则保证了商业落地的可行性,从而验证了其作为“效率优先”模型的竞争力。
引文术语解释:Token效率是指模型在消耗相同计算资源或成本的情况下,能够产出的有效结果数量;缓存命中率是指模型能够重复利用之前计算过的上下文内容的比例,高命中率能显著降低延迟和成本。
总结
Step 3.7 Flash的最大亮点在于其极致的速度起飞(最高416 tokens/s)和惊人的性价比(成本仅为Claude的1/9)。文章通过“40个Agent虚拟用户投票”等趣味实测,生动展示了该模型在复杂任务中的稳定性和多模态能力。
这标志着大模型竞赛的赛点已从“谁更聪明”彻底转向“谁更高效”。对于开发者而言,这意味着在构建企业级Agent时,选择高效率的模型是降低成本、提升体验的关键。
阶跃星辰通过连续两代Flash系列的迭代(从3.5到3.7),已经成功将这一“效率优先”的路线验证于量产车机等实际场景中,未来有望成为AI规模化落地的核心基础设施。