标题和作者
本文标题为“Qwen3.5-Max预览版首度亮相,阿里千问登顶中国最强模型”。文章的主题是阿里巴巴的最新一代旗舰大模型 Qwen3.5-Max-Preview 在国际权威盲测榜单 LMArena 上取得了历史性突破,击败了包括 GPT5.4 和 Claude4.5 在内的全球顶尖模型,确立了其作为中国最强大模型的地位。作者为“量子位的朋友们”,这是量子位(Qbitai)这一知名人工智能科技媒体的作者署名,该媒体长期专注于报道 AI 领域的前沿技术、行业动态及深度分析。
摘要
本文主要报道了阿里巴巴千问旗舰模型 Qwen3.5-Max-Preview 在全球权威盲测榜单 LMArena 上取得的成绩。在此之前,全球顶尖模型如 GPT5.4、Claude4.5 以及国产模型如豆包2.0、GLM5 等长期占据领先地位。为了在激烈的国际竞争中占据优势,阿里发布了新一代旗舰模型 Qwen3.5-Max-Preview。该模型通过 LMArena 的两两盲测机制,以1464分的高分击败了包括 GPT5.4、Claude sonnet-4.6、Grok4.1 在内的所有海外顶级模型,以及豆包2.0、GLM5、Kimi2.5 等全部国产模型。在数学能力子榜单中,它更是排名全球第五、中国第一;在专家级文本能力子榜单中位列全球第十、中国第一。此外,千问3.5系列共有8款开源模型,均获得同尺寸最佳性能 SOTA。有消息称,Qwen3.5-Max 正式版即将发布。
LMArena 是由国际开源机构 LMSYS 组织的第三方大模型测评榜单,它采用“盲测”机制,即开发者不知道具体模型是谁,只根据两两对决的投票结果来排名,因此被视为最公正、最权威的榜单。SOTA 代表 State of the Art,意为“当前最佳”,指在特定任务或数据集上表现最先进、最优的模型。
主要主题和概念
LMArena 排名体系与权威性
What: LMArena 是由 LMSYS 组织的第三方大模型性能榜单,通过盲测投票决定排名,被视为全球最公正、最权威的 AI 评测标准。
Why: 为了获得客观、不受厂商主观营销影响的模型能力评价,确立行业公认的强弱标准。
How: 模型厂商自主提交模型,全球开发者在不知晓具体模型名称的情况下进行两两 PK,根据投票胜率计算分数和排名。
Qwen3.5-Max 的性能突破
What: Qwen3.5-Max-Preview 是阿里巴巴最新发布的旗舰模型预览版,旨在挑战全球顶尖模型。
Why: 为了突破现有技术瓶颈,超越包括 GPT5.4、Claude4.5 等在内的所有国内外竞争对手,巩固阿里在中国及全球 AI 领域的领先地位。
How: 该模型在 LMArena 总榜中排名全球第六,击败了 GPT5.4、Grok4.1 等海外模型及所有国产模型;在数学和专家级文本子榜单中分别位列全球第五和第十,且均是中国第一。
盲测是指在不告知参与者具体模型信息的情况下进行对比测试,目的是消除偏见,确保评价结果基于模型本身的实际能力。参数量与激活参数指模型训练时涉及的权重数量,参数量越大通常意味着模型容量越大,但激活参数是指在推理过程中实际参与运算的参数数量。
重要引文
论点: Qwen3.5-Max-Preview 击败了 GPT5.4、Claude sonnet-4.6、Grok4.1 等顶尖海外模型,以及豆包2.0、GLM5、Kimi2.5 等全部国产模型,成为中国最强模型。
论据: 在 LMArena 最新榜单中,Qwen3.5-Max-Preview 获得了1464分,在绝对胜率总榜中排名全球第六;在数学能力子榜单中排名全球第五、中国第一;在专家级文本能力子榜单中位列全球第十、中国第一。
论证: 通过具体的分数排名和子榜单表现,直接证明了其在综合能力、数学能力和文本能力上全面超越了包括 GPT5.4 在内的所有竞争对手。
绝对胜率是指模型在无风格控制条件下的纯能力对决胜率,不包含用户提示风格对模型输出的影响,更能反映模型的真实实力。
总结
本文的核心亮点在于 Qwen3.5-Max-Preview 的横空出世,它不仅一举击败了 GPT5.4 和 Claude4.5 等国际巨头,更是在数学和专家级文本能力上实现了中国第一的突破。这标志着中国大模型产业正在迅速崛起,阿里凭借该模型跻身全球前五大模型公司。值得注意的是,Qwen3.5 系列不仅旗舰版表现出色,其 8 款开源模型也均为 SOTA 级别,体现了阿里在大模型生态建设上的全面优势。随着 Qwen3.5-Max 正式版的即将发布,其能力预计还将继续进化,进一步缩小与国际顶尖模型的差距。