标题和作者

本文标题为《Streaming Experts》,作者是 Simon Willison。文章主要探讨了通过流式传输专家权重来运行大型混合专家模型的技术,使得在硬件内存有限的情况下,依然能够运行极其庞大的 AI 模型。Simon Willison 作为一名资深的技术博客作者和开源爱好者,长期关注 LLM(大语言模型)的本地化部署与优化,致力于分享前沿的技术实验与见解。

摘要

本文主要回顾了 Dan Woods 关于“Streaming Experts”技术的实验,探讨了一种突破硬件限制运行大型混合专家模型的方法。此前,大型 MoE 模型因参数量过大难以在普通硬件上运行,而本文介绍的这项技术通过动态加载权重解决了这一问题。具体而言,作者解释了该技术如何让 Qwen3.5-397B-A17B 模型在 48GB 内存设备上运行,甚至让 Kimi K2.5(1T 参数模型)在 MacBook Pro 上运行,以及如何在 iPhone 上实现运行。总体来看,这项技术展示了解锁消费级硬件性能潜力的巨大潜力。
术语解释:这里的“Streaming Experts”指的是一种混合专家模型加载技术,其核心在于“Mixture-of-Experts”(MoE),即模型包含大量专家网络,但在处理单个 token 时,并非加载所有专家,而是仅加载和计算最相关的部分(即“active weights”)。文中提到的“A17B”并非指 17B 参数总量,而是指该模型在任何时刻只有 17B 参数处于活跃状态并参与计算,这大大降低了显存和内存占用。

主要主题和概念

主题一:突破内存限制的模型加载技术

  • What:问题在于大型混合专家模型(如参数量达 1T 的 Kimi K2.5)所需的内存远超普通硬件(如笔记本电脑甚至手机)的承载能力,导致无法直接运行。
  • Why:传统的模型加载方式要求将全部参数存储在内存中,而随着模型规模指数级增长,这种静态加载方式已成为硬件性能的瓶颈。
  • How:通过“Streaming”机制,系统不再一次性将模型所有权重加载到内存,而是根据当前计算需求,从 SSD 等存储设备中按需读取并流式传输必要的“active weights”(活跃权重)到内存中进行计算,计算完毕后即可释放内存。
    主题二:跨设备的大模型部署实践
  • What:验证了上述技术在极低硬件配置下的可行性,展示了在 MacBook Pro 和 iPhone 上运行超大规模模型的具体案例。
  • Why:为了证明该技术的普适性和极限性能,需要在不同硬件规格的设备上进行实际测试,以打破“只有超级计算机才能运行大模型”的刻板印象。
  • How:社区开发者通过不断调整优化策略,成功将 Qwen3.5-397B-A17B 模型部署在仅 48GB 内存甚至更少的 iPhone 上,尽管速度较慢(0.6 tokens/秒),但证明了技术落地的可能性。
    术语解释:在 MoE 架构中,“active weights”是一个关键概念,它指的是模型在处理每个输入 token 时,真正参与计算的那一部分参数。对于 Qwen3.5-397B-A17B 这样的模型,虽然其总参数量巨大(397B),但由于 MoE 机制,同一时刻只有 17B 参数被激活,因此极大地节省了内存资源。

重要引文

  • 论点:该技术能够显著降低运行大型混合专家模型的硬件门槛,使得在消费级设备上运行超大参数模型成为现实。
  • 论据:Simon Willison 提供了具体的实验数据作为支撑,包括 Dan Woods 在 48GB RAM 上运行 Qwen3.5-397B-A17B,以及 Anemll 在 iPhone 上成功运行该模型。
  • 论证:通过列举不同硬件环境下(从 48GB MacBook 到 96GB MacBook Pro 再到 iPhone)的成功运行案例,有力地证明了 Streaming Experts 技术的有效性,特别是其通过流式加载技术将巨大的模型参数量转化为可管理的活跃权重,从而解决了内存溢出问题。
    术语解释:在此语境下,“autoresearch loops”指的是一种自我迭代的研发模式,即开发者或研究人员不断发布自己的实验成果,社区成员基于这些成果进行进一步的优化和测试,形成了一个持续改进的闭环。这解释了为何作者认为这项技术“has legs”(有潜力)。

总结

本文最引人注目的部分在于展示了在移动设备(如 iPhone)上运行万亿级参数模型的惊人能力,这彻底颠覆了人们对 AI 硬件需求的认知。结合主题概念,这项技术不仅解决了大型模型在内存中的存储难题,更通过社区的持续“autoresearch loops”不断挖掘性能极限。虽然目前运行速度尚有提升空间,但这种在消费级硬件上突破算力和内存瓶颈的潜力,预示着未来每个人手中都可能拥有一个超强大脑,同时也指明了 AI 部署从云端向边缘设备迁移的技术方向。