论文概述

Gloria: Consistent Character Video Generation via Content Anchors 是由中国科学技术大学(USTC)、新南威尔士大学(UNSW)、香港大学(HKU)和电子科技大学(UESTC)的研究团队联合提出的角色视频生成方法。该论文已被 CVPR 2026 接收。1

论文提出了 Content Anchors(内容锚点) 机制,通过一组紧凑的锚定帧来表示角色的视觉属性,从而在长视频生成中保持角色身份的长期一致性。该方法能够生成超过 10分钟 的高质量角色视频,且在动态镜头、多视角变化中保持角色外观的一致性。

核心贡献

  1. Content Anchors 机制:将角色外观信息与动作生成分离,提供稳定的身份参考
  2. Superset Content Anchoring:通过训练片段内外的线索防止复制粘贴伪影
  3. RoPE as Weak Condition:编码位置偏移以区分多个锚点引用
  4. 可扩展的锚点提取流程:从海量视频中自动提取锚点

问题背景

角色身份一致性问题

数字角色是现代媒体的核心,无论是虚拟主播、数字人、电影特效还是游戏角色,都需要在视频生成中保持角色的长期身份一致性。然而,现有方法面临以下挑战:

问题类型具体表现
上下文不足早期帧的信息不足以维持长期一致性
记忆机制缺陷利用非角色中心信息作为”记忆”,导致次优一致性
多视角不一致角色在不同视角下外观差异明显
表情单一难以生成多样化的表情变化

现有方法的局限性

  1. 基于单参考图像的方法:仅使用初始图像作为参考,随着时间推移容易出现身份漂移
  2. 基于多参考的方法:存在多参考冲突和复制粘贴伪影问题
  3. 面向内的视角(Inside-looking-in):现有方法未能充分利用角色视频生成的独特视角特性

核心创新:Content Anchors

设计理念

Gloria 认识到角色视频生成本质上是一个**“外部观察内部”(Outside-looking-in)**的场景。观众从外部视角观察角色,角色自身不需要”记住”自己的外观。因此,使用一组紧凑的锚定帧来表示角色的视觉属性是合理的。

Content Anchors 的类型

Gloria 定义了三种类型的 Content Anchors:

1. Global Anchor(全局锚点)

  • 提供角色的整体外观信息
  • 通常是第一帧或参考图像
  • 确保长期身份一致性的基础

2. Viewpoint Anchor(视角锚点)

  • 捕捉角色在不同视角下的外观
  • 包含正面、侧面、背面等多个视角
  • 应对多视角变化场景

3. Expression Anchor(表情锚点)

  • 代表不同表情状态的关键帧
  • 如:开心、惊讶、愤怒等
  • 支持丰富的表情生成

技术挑战与解决方案

Content Anchors 机制面临两个核心挑战,Gloria 提出了针对性的解决方案:

挑战解决方案技术细节
复制粘贴伪影Superset Content Anchoring提供片段内和片段外的训练线索,防止重复
多参考冲突RoPE as Weak Condition编码位置偏移,区分多个锚点引用

技术实现

整体框架

Gloria 的整体框架包含以下组件:

初始图像 + 文本/音频提示 + Content Anchors
         ↓
    Video Foundation Model
         ↓
   长时身份一致性角色视频

Superset Content Anchoring

Superset Content Anchoring 通过以下机制防止复制粘贴伪影:

  1. 片段内线索(Intra-clip Cues):在训练时提供同一片段内的其他帧作为参考
  2. 片段外线索(Extra-clip Cues):提供来自不同片段的额外参考信息
  3. 训练策略:模型学习区分真实内容和复制的伪影

RoPE as Weak Condition

RoPE(Rotary Position Embedding)作为弱条件,用于解决多锚点冲突问题:

  • 位置编码:为每个锚点编码唯一的 positional offset
  • 弱化条件:锚点不作为强制约束,而是提供软参考
  • 灵活融合:模型自适应地融合多个锚点信息

可扩展的锚点提取流程

Gloria 构建了一个可扩展的流程,从海量视频中自动提取 Content Anchors:

  1. 视频分割:将长视频分割为短片段
  2. 视角聚类:根据视角对帧进行聚类
  3. 表情检测:识别并提取关键表情帧
  4. 质量筛选:过滤低质量锚点

训练策略

  • 基于大规模角色视频数据集训练
  • 使用多任务学习同时优化身份一致性和动作质量
  • 联合文本/音频条件生成

实验结果

定量评估

Gloria 在多个指标上取得了优异表现:

指标描述结果
身份一致性长期生成中角色外观保持程度显著优于基线方法
多视角一致性不同视角下的外观一致性明显改进
表情多样性生成表情的自然度和多样性丰富且自然
视频质量生成的视频质量和流畅度高质量,>10分钟无明显漂移

定性结果

  • 长视频生成:可生成超过 10分钟 的角色视频,无明显身份漂移
  • 多视角切换:在正面、侧面、背面等视角间平滑切换
  • 表情变化:自然过渡不同表情状态
  • 动作生成:支持说话、肢体动作、手势等多种动作模式

与现有方法对比

方法身份一致性多视角支持长视频支持开源
Gloria★★★★★完整支持>10分钟待定
WildActor★★★★☆有限支持中等已开源
Kling-MotionControl★★★☆☆需参考视频短片段商业闭源

与相关方法对比

WildActor 对比

WildActor(arXiv: 2603.00586)是另一篇研究角色视频生成身份一致性的工作,发表于 CVPR 2026。2

特性GloriaWildActor
核心思路Content Anchors 锚点机制规范三视图生成
锚点类型全局/视角/表情锚点参考身份+提示序列
视角处理显式视角锚点三视图约束
训练数据大规模视频自动提取精心收集数据
视频时长>10分钟中等长度

Kling-MotionControl 对比

Kling-MotionControl 是快手推出的商业视频生成工具,主要面向运动控制场景。3

特性GloriaKling-MotionControl
定位研究论文方法商业产品
运动控制文本/音频驱动参考视频驱动
身份一致性Content Anchors 保证依赖参考视频质量
应用场景研究、虚拟角色短视频制作
开源情况待定闭源

方法论差异

  • Gloria:强调分离身份保持与动作生成,通过锚点机制提供稳定参考
  • WildActor:强调约束多视角一致性,通过规范三视图设计
  • Kling-MotionControl:强调动作迁移,从参考视频提取运动信息

参考资源

论文链接

相关论文

  • WildActor: Unconstrained Identity-Preserving Video Generation (arXiv: 2603.00586)2
  • Kling-MotionControl Technical Report (arXiv: 2603.03160)3

相关主题

引用格式

@misc{2603.29931,
  author = {Yuhang Yang and Fan Zhang and Huaijin Pi and Shuai Guo and Guowei Xu and Wei Zhai and Yang Cao and Zheng-Jun Zha},
  title = {Gloria: Consistent Character Video Generation via Content Anchors},
  year = {2026},
  eprint = {2603.29931},
  archivePrefix = {arXiv},
  primaryClass = {cs.CV}
}

脚注

Footnotes

  1. Gloria: Consistent Character Video Generation via Content Anchors, CVPR 2026, arXiv:2603.29931

  2. WildActor: Unconstrained Identity-Preserving Video Generation, CVPR 2026, arXiv:2603.00586 2

  3. Kling-MotionControl Technical Report, arXiv:2603.03160 2