New Microsoft tool lets devs spin up AI behavior tests using text descriptions

标题和作者

本文档的标题为“New Microsoft tool lets devs spin up AI behavior tests using text descriptions”，未明确提及具体作者，但文中引用了 Sarah Bird（Microsoft 负责任 AI 首席产品官）的观点。文档主要介绍了 Microsoft 推出的一款名为 ASSERT 的开源框架，该工具允许开发者通过文本描述快速生成针对特定应用场景的 AI 行为测试。其背景在于，随着 AI 模型能力的飞速发展，开发者面临着确保 AI 系统在特定产品或服务中按预期运行的新需求。

摘要

本文介绍了 Microsoft 发布的一款名为 ASSERT 的开源工具，该工具能够将自然语言描述转化为针对特定应用场景的 AI 行为测试。之前业界已经有许多通用的 AI 模型评估工具和基准测试，例如针对安全性、合规性、阿谀奉承和对齐等方面的评估，以及 Stanford 的 HELM、MLCommons 的 AILuminate 等。之所以还需要做，是因为现有的通用评估无法覆盖特定应用或产品上下文、政策和工具所塑造的特定行为需求，开发者在将 AI 集成到具体产品时，需要确保其行为符合该产品的特定规范。具体做法是，开发者只需用日常语言描述 AI 模型的预期行为和政策，ASSERT 就会将其转化为一组结构化的可接受和不可接受行为，自动生成问题场景和测试用例，在目标系统中运行这些测试，并对结果进行评分，同时记录 AI 系统的执行路径，包括中间操作和工具调用。该工具填补了通用评估的空白，能够帮助开发者在构建系统、部署后甚至持续监控阶段评估系统的多维度应用特定行为，从而建立值得信赖的 AI 系统。本节中可能让听众困惑的术语包括：ASSERT（Adaptive Spec-driven Scoring for Evaluation and Regression Testing，自适应规范驱动的评估和回归测试评分，是 Microsoft 推出的一个开源框架，用于评估特定应用的 AI 行为）；Responsible AI（负责任的人工智能，指在开发和使用 AI 时遵循道德、安全和可靠的原则）；Regression Testing（回归测试，指在修改代码后重新运行测试，以确保现有功能没有被破坏）；HELM（由 Stanford 大学推出的基准测试，用于全面评估语言模型）；MLCommons（一个开放的工程组织，致力于加速机器学习创新，其推出了 AILuminate 基准测试）；METR（一个专注于评估 AI 模型能力的评估组织）。

主要主题和概念

What（界定问题）：问题在于，随着 AI 模型被广泛应用于各种特定的产品和服务中，开发者如何确保 AI 系统的行为完全符合特定应用场景的预期、政策约束和工具限制，而通用的 AI 评估标准无法满足这种高度定制化的行为测试需求。Why（分析问题）：根本原因是，通用评估基准主要关注模型的基础能力、安全性和对齐等宏观维度，而具体的应用程序赋予了 AI 特定的上下文、工具和业务规则，如果缺乏针对这些特定维度的测试，开发者就难以了解 AI 系统是否达到了组织的标准，从而难以建立可信赖的系统。How（解决问题）：文档介绍了 ASSERT 框架来解决这一问题，开发者只需输入自然语言描述的规则（例如限制信息访问权限、禁止外部发邮件等），ASSERT 就会利用 AI 自动将这些描述转化为结构化的行为准则，生成对应的测试场景和用例，并执行测试和打分，同时追踪 AI 的中间操作步骤，方便开发者定位问题。本节中可能让听众困惑的术语包括：Alignment（对齐，在 AI 领域指确保 AI 系统的目标、行为和价值观与人类的意图和伦理规范保持一致）；Sycophancy（阿谀奉承，指 AI 模型为了迎合用户而提供不客观或带有偏见的回答，被视为一种不良的设计模式）；Agent（智能体，指能够感知环境并采取行动以实现特定目标的 AI 系统，通常具备使用工具和自主决策的能力）。

重要引文

论点：为了建立值得信赖的 AI 系统，开发者必须对 AI 系统进行更多维度的、针对特定应用的评估，而不仅仅是依赖通用评估。论据：Sarah Bird（Microsoft 负责任 AI 首席产品官）指出：“评估对于做出正确决策绝对至关重要。因为如果你不了解 AI 系统的行为，就很难知道它是否达到了你组织的标准……我们发现，如果你真的想拥有一个值得信赖的系统，你应该评估更多针对特定应用的维度。”此外，文章提到通用评估无法覆盖由应用程序或产品的上下文、政策和工具所塑造的行为。论证：文章首先指出业界在通用 AI 评估方面取得了长足进步，但随后通过 Sarah Bird 的观点和 ASSERT 框架的推出，论证了仅仅依赖通用评估是不够的，因为产品化的 AI 受到特定上下文的影响，必须引入像 ASSERT 这样的工具，将应用特定的规范转化为具体的测试用例，才能在构建、部署和持续监控中全面掌握 AI 的行为，从而证明特定应用评估的必要性。本节中可能让听众困惑的术语包括：Chief Product Officer（首席产品官，负责公司产品战略和管理的最高负责人）；Benchmark（基准测试，用于评估和比较不同系统或模型性能的一套标准化测试）。

总结

Microsoft 最新推出的 ASSERT 开源框架代表了 AI 行业在评估方法上的一次重要演进。过去，业界主要关注 AI 模型的通用能力和安全性，但随着 AI 智能体深入到具体的企业业务流程中，如何约束其在特定上下文中的行为成为了新的挑战。ASSERT 的创新之处在于利用 AI 自身的能力，将人类可读的自然语言规则转化为可执行的自动化测试，极大地降低了应用特定行为测试的门槛。当前，该工具可广泛应用于 AI 系统的开发、部署后检查以及持续的日常监控中。随着 AI 模型能力的持续增长，这种可重复、针对特定场景的回归测试和评估机制将成为企业构建安全、可靠 AI 应用的关键基石。