字节开源统一框架Bernini：给DiT配个“大模型军师”，AI视频编辑先理解再动手

标题和作者

本文档的标题为《字节开源统一框架Bernini：给DiT配个“大模型军师”，AI视频编辑先理解再动手》，作者是梦瑶（发自凹非寺），来源于量子位。文档主要介绍了字节商业化技术团队开源的一个名为Bernini的统一视频生成与编辑框架。该框架的核心创新在于让多模态大模型先进行语义理解与规划，再由Diffusion模型完成高质量视觉渲染，从而解决AI视频生成中“听不懂人话”的痛点。作者梦瑶是量子位科技媒体的编辑，专注于人工智能领域的技术报道与解读。

摘要

本文介绍了字节跳动开源的统一视频生成与编辑框架Bernini，该框架主打“先理解再生成”，通过多模态大模型负责语义规划，再由Diffusion模型完成视觉渲染。在之前，视频生成模型大多只能按提示词出片，常常听不懂复杂的修改指令，导致视频编辑时出现主体变形、背景漂移、动作断裂等问题，且创作者很难通过一句prompt精确描述复杂的视觉细节。为了解决这种AI视频生成中的“失控感”和“玄学”问题，让创作者能够进行真正可控的局部编辑，Bernini应运而生。具体做法上，框架分为两步：第一步使用MLLM-based planner理解文本、视频和参考图，预测目标语义表示；第二步由DiT-based renderer结合源视频特征，生成稳定的高质量视频画面，同时引入了SA-3D RoPE技术处理多参考输入。目前，Bernini在视频可控编辑上表现出色，在字节自建的Arena中已跻身第一梯队，与国内外主流闭源模型不相上下，有效减少了创作者反复碰运气的概率。

本节术语解释：DiT全称为Diffusion Transformer，是一种结合了Transformer架构的扩散模型，用于高质量图像或视频生成；MLLM全称为Multimodal Large Language Model，即多模态大语言模型，能同时处理文本、图像、视频等多种信息；SA-3D RoPE全称为Segment-Aware 3D Rotary Positional Embedding，即段感知三维旋转位置编码，其中3D代表Three-Dimensional（三维），该技术用于给不同的视觉素材打上标记，防止模型混淆空间和时间坐标；prompt指用户输入给AI的提示词。

主要主题和概念

AI视频的可控编辑：界定AI视频编辑中既要听懂指令，又要保住主体、结构、镜头和运动关系的问题，避免出现主体变形、帧间闪烁等翻车现象。由于视频是连续画面，传统模型往往只关注单帧好看，缺乏对前后帧一致性和整体空间逻辑的理解，导致稍微处理不好就会破坏原视频的连贯性。Bernini通过“导演+后期”的分工，让MLLM-based planner先理解指令和源视频，规划出目标语义草图，再由DiT-based renderer进行渲染，从而实现精准改变天气、视角、焦点和动作行为，同时保持环境、光照和镜头关系稳定。

基于多参考输入的视觉生成：解决创作者难以用单一文本prompt精确描述具体材质、商品、色调或植入特定视频素材的问题。文本描述存在局限性，对于特定的视觉细节（如某种大理石纹理、某个产品的外观）往往词不达意，导致AI自由发挥而偏离创作意图。Bernini允许用户直接输入图片或视频作为参考。模型可以提取参考的主体、材质、风格特征，甚至将多张毫不相干的图片组合成同一个角色，或者利用同一物体的多角度参考图生成连贯镜头，确保物体、角色和场景的高度一致性。

本节术语解释：VAE features指变分自编码器特征，这里指代源视频的底层视觉细节和非编辑区域的信息；ViT embedding space指视觉Transformer嵌入空间，是模型将视觉信息转化为计算机可理解的向量表示的空间；OOTD（Outfit of the Day）原意为每日穿搭，文中指利用多元素组合给虚拟角色进行整体服装搭配的玩法。

重要引文

论点：Bernini通过巧妙的分工实现了从文本到视频的高质量可控生成与编辑。论据：多模态大模型负责想明白，Diffusion Transformer负责生成出来。前面负责导演的，是一个叫MLLM-based planner的多模态大模型规划器。它会先看懂你的文本指令，也会一起理解源视频、参考图片、参考视频这些素材，判断目标画面应该变成什么样。等这一步想清楚后，再交给diffusion模型DiT-based renderer来完成视觉渲染，把前面规划好的语义目标，真正变成连续、稳定、高质量的视频画面。论证：作者通过描述Bernini的工作流程，论证了将语义理解和视觉渲染拆分为两个独立步骤的合理性。这种分工使得模型既能精准理解用户意图，又能保证最终生成的视频画面质量稳定，从而证明了该框架在处理复杂视频任务上的优越性。

论点：Bernini能够有效处理复杂的视觉参考素材，保证生成视频的时空一致性。论据：当多个参考图、源视频、目标视频被串进同一个序列里时，不同素材可能会出现相同的时间和空间坐标，模型容易认混。所以Bernini引入了Segment-Aware 3D Rotary Positional Embedding，也就是SA-3D RoPE。它会给不同视觉片段加上各自的segment标记，让模型分清：哪个是参考图，哪个是源视频，哪个是目标输出；同时还能保留时间和空间位置关系。论证：作者通过指出多参考输入容易导致的坐标混淆问题，引出了SA-3D RoPE这一技术论据。论证了通过为不同视觉片段打上专属标记，模型能够清晰地区分各类素材，并在保持时空位置关系的前提下，实现精准的图像植入和多角度参考生成。

本节术语解释：Segment-Aware 3D Rotary Positional Embedding（SA-3D RoPE）即段感知三维旋转位置编码，3D即三维，该技术用于处理模型输入序列中的位置信息，确保模型在处理多模态输入时不会混淆不同素材的时空坐标；Arena指大模型竞技场，通常用于通过盲测或用户投票等方式评估不同AI模型的性能排名。

总结

Bernini最吸引人的地方在于它极大地消除了AI视频创作中的“玄学”与“失控感”。传统AI视频生成往往依赖冗长的prompt，且修改局部容易导致全盘崩溃。而Bernini像一个智能的“导演+后期团队”，通过先理解、后渲染的机制，实现了精准的天气、视角、动作编辑，以及强大的多图参考生成和视频植入能力。当前，该框架已在字节自建Arena中跻身第一梯队，展现出与主流闭源模型抗衡的实力。目前开源的Bernini-R虽然只是三阶段训练中的第二阶段模型，但已具备极高的实用价值，能够广泛应用于广告创意、电商展示、影视预演和虚拟拍摄等场景。未来，随着包含完整MLLM Planner版本的进一步开放，Bernini有望在虚拟漫游、游戏关卡生成、具身智能模拟等更长线的世界模型能力上带来更多惊喜，真正让AI视频创作变得更好用、更听话、更接近真实的后期软件工作流。