标题和作者

本文档的标题为《字节开源统一框架Bernini:给DiT配个“大模型军师”,AI视频编辑先理解再动手》,作者是梦瑶(发自凹非寺),来源于量子位。文档主要介绍了字节商业化技术团队开源的一个名为Bernini的统一视频生成与编辑框架。该框架的核心创新在于让多模态大模型先进行语义理解与规划,再由Diffusion模型完成高质量视觉渲染,从而解决AI视频生成中“听不懂人话”的痛点。作者梦瑶是量子位科技媒体的编辑,专注于人工智能领域的技术报道与解读。

摘要

本文介绍了字节跳动开源的统一视频生成与编辑框架Bernini,该框架主打“先理解再生成”,通过多模态大模型负责语义规划,再由Diffusion模型完成视觉渲染。在之前,视频生成模型大多只能按提示词出片,常常听不懂复杂的修改指令,导致视频编辑时出现主体变形、背景漂移、动作断裂等问题,且创作者很难通过一句prompt精确描述复杂的视觉细节。为了解决这种AI视频生成中的“失控感”和“玄学”问题,让创作者能够进行真正可控的局部编辑,Bernini应运而生。具体做法上,框架分为两步:第一步使用MLLM-based planner理解文本、视频和参考图,预测目标语义表示;第二步由DiT-based renderer结合源视频特征,生成稳定的高质量视频画面,同时引入了SA-3D RoPE技术处理多参考输入。目前,Bernini在视频可控编辑上表现出色,在字节自建的Arena中已跻身第一梯队,与国内外主流闭源模型不相上下,有效减少了创作者反复碰运气的概率。

本节术语解释:DiT全称为Diffusion Transformer,是一种结合了Transformer架构的扩散模型,用于高质量图像或视频生成;MLLM全称为Multimodal Large Language Model,即多模态大语言模型,能同时处理文本、图像、视频等多种信息;SA-3D RoPE全称为Segment-Aware 3D Rotary Positional Embedding,即段感知三维旋转位置编码,其中3D代表Three-Dimensional(三维),该技术用于给不同的视觉素材打上标记,防止模型混淆空间和时间坐标;prompt指用户输入给AI的提示词。

主要主题和概念

AI视频的可控编辑:界定AI视频编辑中既要听懂指令,又要保住主体、结构、镜头和运动关系的问题,避免出现主体变形、帧间闪烁等翻车现象。由于视频是连续画面,传统模型往往只关注单帧好看,缺乏对前后帧一致性和整体空间逻辑的理解,导致稍微处理不好就会破坏原视频的连贯性。Bernini通过“导演+后期”的分工,让MLLM-based planner先理解指令和源视频,规划出目标语义草图,再由DiT-based renderer进行渲染,从而实现精准改变天气、视角、焦点和动作行为,同时保持环境、光照和镜头关系稳定。

基于多参考输入的视觉生成:解决创作者难以用单一文本prompt精确描述具体材质、商品、色调或植入特定视频素材的问题。文本描述存在局限性,对于特定的视觉细节(如某种大理石纹理、某个产品的外观)往往词不达意,导致AI自由发挥而偏离创作意图。Bernini允许用户直接输入图片或视频作为参考。模型可以提取参考的主体、材质、风格特征,甚至将多张毫不相干的图片组合成同一个角色,或者利用同一物体的多角度参考图生成连贯镜头,确保物体、角色和场景的高度一致性。

本节术语解释:VAE features指变分自编码器特征,这里指代源视频的底层视觉细节和非编辑区域的信息;ViT embedding space指视觉Transformer嵌入空间,是模型将视觉信息转化为计算机可理解的向量表示的空间;OOTD(Outfit of the Day)原意为每日穿搭,文中指利用多元素组合给虚拟角色进行整体服装搭配的玩法。

重要引文

论点:Bernini通过巧妙的分工实现了从文本到视频的高质量可控生成与编辑。论据:多模态大模型负责想明白,Diffusion Transformer负责生成出来。前面负责导演的,是一个叫MLLM-based planner的多模态大模型规划器。它会先看懂你的文本指令,也会一起理解源视频、参考图片、参考视频这些素材,判断目标画面应该变成什么样。等这一步想清楚后,再交给diffusion模型DiT-based renderer来完成视觉渲染,把前面规划好的语义目标,真正变成连续、稳定、高质量的视频画面。论证:作者通过描述Bernini的工作流程,论证了将语义理解和视觉渲染拆分为两个独立步骤的合理性。这种分工使得模型既能精准理解用户意图,又能保证最终生成的视频画面质量稳定,从而证明了该框架在处理复杂视频任务上的优越性。

论点:Bernini能够有效处理复杂的视觉参考素材,保证生成视频的时空一致性。论据:当多个参考图、源视频、目标视频被串进同一个序列里时,不同素材可能会出现相同的时间和空间坐标,模型容易认混。所以Bernini引入了Segment-Aware 3D Rotary Positional Embedding,也就是SA-3D RoPE。它会给不同视觉片段加上各自的segment标记,让模型分清:哪个是参考图,哪个是源视频,哪个是目标输出;同时还能保留时间和空间位置关系。论证:作者通过指出多参考输入容易导致的坐标混淆问题,引出了SA-3D RoPE这一技术论据。论证了通过为不同视觉片段打上专属标记,模型能够清晰地区分各类素材,并在保持时空位置关系的前提下,实现精准的图像植入和多角度参考生成。

本节术语解释:Segment-Aware 3D Rotary Positional Embedding(SA-3D RoPE)即段感知三维旋转位置编码,3D即三维,该技术用于处理模型输入序列中的位置信息,确保模型在处理多模态输入时不会混淆不同素材的时空坐标;Arena指大模型竞技场,通常用于通过盲测或用户投票等方式评估不同AI模型的性能排名。

总结

Bernini最吸引人的地方在于它极大地消除了AI视频创作中的“玄学”与“失控感”。传统AI视频生成往往依赖冗长的prompt,且修改局部容易导致全盘崩溃。而Bernini像一个智能的“导演+后期团队”,通过先理解、后渲染的机制,实现了精准的天气、视角、动作编辑,以及强大的多图参考生成和视频植入能力。当前,该框架已在字节自建Arena中跻身第一梯队,展现出与主流闭源模型抗衡的实力。目前开源的Bernini-R虽然只是三阶段训练中的第二阶段模型,但已具备极高的实用价值,能够广泛应用于广告创意、电商展示、影视预演和虚拟拍摄等场景。未来,随着包含完整MLLM Planner版本的进一步开放,Bernini有望在虚拟漫游、游戏关卡生成、具身智能模拟等更长线的世界模型能力上带来更多惊喜,真正让AI视频创作变得更好用、更听话、更接近真实的后期软件工作流。