Startup Gimlet Labs is solving the AI inference bottleneck in a surprisingly elegant way

标题和作者

本文标题为《Startup Gimlet Labs is solving the AI inference bottleneck in a surprisingly elegant way》，发布于 TechCrunch。文章主要介绍了由斯坦福大学兼职教授、成功创业的创始人 Zain Asgar 创立的公司 Gimlet Labs。该公司刚刚筹集了 8000 万美元的 A 轮融资，由 Menlo Ventures 领投。文章重点探讨了这家公司如何通过巧妙的软件方案解决 AI 推理瓶颈问题，并分析了当前数据中心硬件利用率低下的现状及其背后的商业价值。

摘要

本文介绍了 Gimlet Labs 通过开发“多硅片推理云”软件来解决 AI 推理瓶颈问题。目前市场上尚无单一芯片能处理所有的 AI 任务，且现有硬件利用率低下（仅 15%-30%），导致巨大的资源浪费。Gimlet Labs 通过编排软件将 AI 工作负载切片并分配到不同的硬件架构（CPU、GPU、高内存系统）上并行运行，声称能在相同成本和功耗下实现 3 倍到 10 倍的速度提升。该公司已获得 8000 万美元 A 轮融资，并宣布推出即拥有八位数收入。

术语解释： “多硅片推理云”是指一种软件系统，它不依赖单一类型的芯片，而是像一个指挥家一样，将一个 AI 任务的不同部分分配给最适合的硬件（如用于计算推理的 GPU、用于解码的内存密集型系统或用于工具调用的网络系统）同时运行。“推理瓶颈”是指在进行 AI 模型预测或决策时，由于硬件限制导致速度变慢或无法流畅处理的问题。

主要主题和概念

多硅片推理云

What：这是一种软件解决方案，旨在打破单一硬件类型的限制，允许 AI 工作负载在传统 CPU、AI 定制 GPU 以及高内存系统等不同类型的硬件上同时运行。
Why：目前没有任何单一芯片能够完美处理所有的 AI 步骤。不同的任务阶段对硬件的需求不同，例如推理是计算密集型的，解码是内存密集型的，而工具调用则是网络密集型的。此外，现有的数据中心硬件往往被闲置，利用率极低。
How：通过编排软件将复杂的 AI 应用工作流进行切片处理，并利用智能调度将每个任务片段分配给最适合的芯片架构，从而实现资源的最大化利用。

术语解释： Agentic workloads（代理工作负载）指的是由 AI 代理执行的一系列复杂任务序列，每个步骤可能需要不同的硬件资源支持。Compute-bound（计算密集型）意味着任务的处理速度受限于 CPU 或 GPU 的计算能力，而不是等待数据读取的时间。

重要引文

论点：AI 任务步骤对硬件需求各异

论据：Menlo 的 Tim Tully 指出：“推理是计算密集型的，解码是内存密集型的，而工具调用则是网络密集型的。”
论证：这句话证明了不同的 AI 应用环节无法在单一硬件上高效运行，因此必须开发能够跨越多种硬件类型的软件层来解决这一问题。

论点：硬件资源被严重浪费

论据：Zain Asgar 表示，AI 应用仅在使用已部署硬件的“15 到 30%”的时间。
论证：这表明用户正在浪费数十亿美元，仅仅是因为资源处于闲置状态，这为 Gimlet Labs 寻求 10 倍效率提升的目标提供了充分的理由。

术语解释： Series A 是指公司种子轮融资之后、首次大规模风险投资融资的阶段，通常用于支持公司扩张。Agentic（代理）在这里指的是具备自主决策和执行能力的 AI 系统。

总结

Gimlet Labs 专注于解决 AI 推理效率低下的问题，其核心创新在于构建了“多硅片推理云”软件层。通过将 AI 工作负载灵活分配到多种硬件架构上，该公司成功将推理速度提升了 3 倍到 10 倍，并解决了当前硬件利用率极低（仅 15-30%）的痛点。随着预计到 2030 年数据中心支出将达到 7 万亿美元的背景下，这种提高资源利用率的方案极具价值。目前公司已获得 8000 万美元 A 轮融资，并拥有主要模型实验室等高端客户，未来有望在 AI 基础设施优化领域占据重要地位。