MiniMax M3一手实测：老黄PPT上74个Logo，我以为能难住它

标题和作者

本文标题为《MiniMax M3一手实测：老黄PPT上74个Logo，我以为能难住它》，作者是克雷西，首发于公众号量子位。文章主要围绕MiniMax最新发布的开源大模型M3进行了深度的一手实测与底层技术解析。作者克雷西作为量子位的编辑，通过复现学术论文、制作交互式网页、解析复杂视频等多个极具挑战性的真实任务，全面检验了M3在长上下文、多模态和Coding（编程）三大核心维度的能力，探讨了该模型如何打破闭源模型在前沿能力上的垄断。

摘要

本文对MiniMax最新开源模型M3进行了全方位的实测，验证了其在长上下文、多模态和编程方面的综合实力。在此之前，虽然市面上已有其他开源模型，但能同时在这三个核心维度上比肩顶尖闭源模型（如GPT、Claude、Gemini的最新旗舰）的几乎不存在，开源阵营一直处于追赶状态。本文之所以进行这项测试，是为了验证M3是否能成为首个撕开闭源壁垒、迈入全球第一梯队的开源模型。作者通过让模型自主复现顶级会议（如ICLR）的复杂学术论文、根据老黄（黄仁勋）的行程制作美食打卡地图、精准识别并整理PPT中的74个企业Logo，以及解析长达两小时的复杂视频推理过程等一系列高难度任务，结合对底层技术（如MSA稀疏注意力机制、原生多模态训练等）的剖析，展示了M3的具体表现。测试结果表明，M3表现极其优异，在SWE-Bench Pro上跑出59%的高分，不仅任务完成度极高，且推理效率和性价比远超预期，成功证明了开源模型也能在复杂任务中与顶尖闭源模型同台竞技。
在这一节中，有几个概念可能会让读者感到困惑：Token Plan是指大模型API服务商提供的一种计费或使用额度套餐计划；SWE-Bench Pro是一个用于评估大模型解决真实软件工程问题能力的权威基准测试平台；MiniMax Code是MiniMax专门为M3模型设计并配合训练的编程客户端工具，类似于目前业内流行的Claude Code，旨在更好地发挥模型的编程和智能体能力。

主要主题和概念

第一个主题是长上下文处理与稀疏注意力机制。What（界定问题）：随着大模型处理任务越来越复杂，需要模型能够一次性处理百万级别（1M）的超长上下文，但传统的注意力机制会导致计算量呈平方级爆炸，极大消耗算力和显存。Why（分析问题）：根本原因在于模型在处理长文本时，每一个词都需要和前面所有的词进行注意力计算，导致计算冗余且硬件利用率低下。How（解决问题）：M3采用了名为MiniMax Sparse Attention（简称MSA）的新型稀疏注意力机制。该机制通过以KV块为外层循环汇聚命中它的query，确保每块数据只读取一次，使得访存连续，从而在实现极高硬件利用率的同时，将计算量大幅压缩，解决了长上下文的效率瓶颈。
第二个主题是编程与智能体协作能力的训练。What（界定问题）：在实际的软件开发中，用户的需求往往是模糊且不断变化的，需要大模型能够在多轮对话中不断修改、推翻并重新生成代码，而不是仅仅执行单次指令。Why（分析问题）：传统的模型训练往往基于静态的、一次性的指令，缺乏对真实生产环境中复杂交互场景的认知，导致模型在面对模糊提示词或中途变更需求时性能骤降。How（解决问题）：MiniMax构建了交互式用户模拟器框架，利用大语言模型来模拟真实开发者在同一个会话中的持续协作行为（如反复修改需求、中途加新约束等），让M3在训练阶段就深度接触接近真实生产环境的交互场景，从而大幅提升了其在复杂软件工程任务中的表现。
第三个主题是原生多模态的早期融合。What（界定问题）：如何让大模型不仅懂文本，还能真正理解图像、视频等多种模态的信息，并在处理图文混合的复杂文档时保持高效。Why（分析问题）：传统的多模态做法通常是先分别训练文本模型和视觉模型，然后再进行拼接，这导致语义空间割裂，模型难以深刻理解图文之间的内在联系。How（解决问题）：M3从预训练的第一步起就采用图文混合训练，将文本和视觉的语义空间从一开始就融合在同一套框架下。通过重建数据管线并引入海量的交错数据，模型在底层架构上实现了原生多模态，提升了整体性能。
本节涉及的术语解释如下：MSA（MiniMax Sparse Attention）是M3采用的新型稀疏注意力机制；MoBA、NSA、DSA、CSA、HCA等均是业界其他机构（如清华、DeepSeek等）提出的不同类型的稀疏注意力机制或架构；early fusion（早期融合）是指在模型预训练初期就将不同模态（如文本和图像）的数据混合在一起进行训练的策略，与之相对的是late fusion（后期融合）；interleaved data（交错数据）指的是文本和图像（或音视频）交替混合的数据格式，相比于单纯的图片说明数据，它能让模型更好地学习图文间的复杂上下文关系。

重要引文

论点一：M3具备极强的自主科研复现能力与逻辑推理能力，能够独立且精准地完成复杂的学术推导任务。论据：作者让M3复现ICLR 2026中关于Muon优化器中Polar Express算法的论文，该算法需要动态求解多项式系数。M3不仅自主拆分了模块，还专门绘制了验证图，将其从零推算出的系数与论文中硬编码的系数进行逐一比对。论证：通过展示M3生成的验证图中“两条线几乎完全重叠，差异肉眼不可见”这一铁证，说明M3能够完全脱离人工干预，独立走完与论文作者相同的复杂数学推导路径，并得到完全一致的答案，从而有力证明了其卓越的科研级推理与代码实现能力。
论点二：M3在多模态信息提取和长上下文视觉理解方面达到了顶尖水平。论据：作者输入了黄仁勋在ComputeX演讲时展示的包含74家企业Logo的DSX AI生态系统PPT图片，要求M3识别所有企业并制作交互网页。论证：面对数量庞大且仅有图形信息的Logo，M3不仅无一例外地正确识别了全部74家公司，还成功搜集了这些公司的资料并制作出符合要求、配色精准的交互式网页。这一过程直接证明了模型在处理密集视觉信息时没有出现幻觉或遗漏，视觉识别与后续的代码生成配合得天衣无缝。
本节涉及的术语解释如下：ICLR（International Conference on Learning Representations）是机器学习领域的顶级国际学术会议；Muon是一种常用于大模型训练的优化器，用于更新模型权重；Polar Express是论文中提出的一种对梯度矩阵进行极分解的动态求解算法；Newton-Schulz迭代是一种经典的数学迭代方法，常用于矩阵分解计算；ffmpeg是一个开源的跨平台多媒体处理框架，M3利用它来压缩庞大的视频文件；Leaflet是一个用于构建Web端交互式地图的开源JavaScript库。

总结

本文最吸引人的部分在于M3在一系列“地狱级”难度实测中所展现出的惊人表现。无论是连续12小时无人工干预复现顶级学术论文，还是仅凭一张满是Logo的PPT就能精准识别74家企业并生成精美网页，亦或是看懂长达两小时的复杂语言学推理视频并输出清晰的讲解页面，M3都打破了人们对开源模型“能力受限”的固有印象。这些测试不仅证明了其在长程编程任务、多轮协作开发以及图文混合复杂文档处理上的卓越实力，更标志着开源模型首次在这三大核心场景中追平了国际顶尖的闭源模型。当前，M3非常适合应用于需要处理超长代码库、进行复杂数据分析或多模态信息整合的高阶开发场景。尽管大模型领域的竞争日益激烈，但M3的发布无疑为全球开发者提供了一个极具性价比且值得认真对待的开源选项，未来有望在打破少数闭源巨头技术垄断的道路上发挥重要作用。