论文概述
Gloria: Consistent Character Video Generation via Content Anchors 是由中国科学技术大学(USTC)、新南威尔士大学(UNSW)、香港大学(HKU)和电子科技大学(UESTC)的研究团队联合提出的角色视频生成方法。该论文已被 CVPR 2026 接收。1
论文提出了 Content Anchors(内容锚点) 机制,通过一组紧凑的锚定帧来表示角色的视觉属性,从而在长视频生成中保持角色身份的长期一致性。该方法能够生成超过 10分钟 的高质量角色视频,且在动态镜头、多视角变化中保持角色外观的一致性。
核心贡献
- Content Anchors 机制:将角色外观信息与动作生成分离,提供稳定的身份参考
- Superset Content Anchoring:通过训练片段内外的线索防止复制粘贴伪影
- RoPE as Weak Condition:编码位置偏移以区分多个锚点引用
- 可扩展的锚点提取流程:从海量视频中自动提取锚点
问题背景
角色身份一致性问题
数字角色是现代媒体的核心,无论是虚拟主播、数字人、电影特效还是游戏角色,都需要在视频生成中保持角色的长期身份一致性。然而,现有方法面临以下挑战:
| 问题类型 | 具体表现 |
|---|---|
| 上下文不足 | 早期帧的信息不足以维持长期一致性 |
| 记忆机制缺陷 | 利用非角色中心信息作为”记忆”,导致次优一致性 |
| 多视角不一致 | 角色在不同视角下外观差异明显 |
| 表情单一 | 难以生成多样化的表情变化 |
现有方法的局限性
- 基于单参考图像的方法:仅使用初始图像作为参考,随着时间推移容易出现身份漂移
- 基于多参考的方法:存在多参考冲突和复制粘贴伪影问题
- 面向内的视角(Inside-looking-in):现有方法未能充分利用角色视频生成的独特视角特性
核心创新:Content Anchors
设计理念
Gloria 认识到角色视频生成本质上是一个**“外部观察内部”(Outside-looking-in)**的场景。观众从外部视角观察角色,角色自身不需要”记住”自己的外观。因此,使用一组紧凑的锚定帧来表示角色的视觉属性是合理的。
Content Anchors 的类型
Gloria 定义了三种类型的 Content Anchors:
1. Global Anchor(全局锚点)
- 提供角色的整体外观信息
- 通常是第一帧或参考图像
- 确保长期身份一致性的基础
2. Viewpoint Anchor(视角锚点)
- 捕捉角色在不同视角下的外观
- 包含正面、侧面、背面等多个视角
- 应对多视角变化场景
3. Expression Anchor(表情锚点)
- 代表不同表情状态的关键帧
- 如:开心、惊讶、愤怒等
- 支持丰富的表情生成
技术挑战与解决方案
Content Anchors 机制面临两个核心挑战,Gloria 提出了针对性的解决方案:
| 挑战 | 解决方案 | 技术细节 |
|---|---|---|
| 复制粘贴伪影 | Superset Content Anchoring | 提供片段内和片段外的训练线索,防止重复 |
| 多参考冲突 | RoPE as Weak Condition | 编码位置偏移,区分多个锚点引用 |
技术实现
整体框架
Gloria 的整体框架包含以下组件:
初始图像 + 文本/音频提示 + Content Anchors
↓
Video Foundation Model
↓
长时身份一致性角色视频
Superset Content Anchoring
Superset Content Anchoring 通过以下机制防止复制粘贴伪影:
- 片段内线索(Intra-clip Cues):在训练时提供同一片段内的其他帧作为参考
- 片段外线索(Extra-clip Cues):提供来自不同片段的额外参考信息
- 训练策略:模型学习区分真实内容和复制的伪影
RoPE as Weak Condition
RoPE(Rotary Position Embedding)作为弱条件,用于解决多锚点冲突问题:
- 位置编码:为每个锚点编码唯一的 positional offset
- 弱化条件:锚点不作为强制约束,而是提供软参考
- 灵活融合:模型自适应地融合多个锚点信息
可扩展的锚点提取流程
Gloria 构建了一个可扩展的流程,从海量视频中自动提取 Content Anchors:
- 视频分割:将长视频分割为短片段
- 视角聚类:根据视角对帧进行聚类
- 表情检测:识别并提取关键表情帧
- 质量筛选:过滤低质量锚点
训练策略
- 基于大规模角色视频数据集训练
- 使用多任务学习同时优化身份一致性和动作质量
- 联合文本/音频条件生成
实验结果
定量评估
Gloria 在多个指标上取得了优异表现:
| 指标 | 描述 | 结果 |
|---|---|---|
| 身份一致性 | 长期生成中角色外观保持程度 | 显著优于基线方法 |
| 多视角一致性 | 不同视角下的外观一致性 | 明显改进 |
| 表情多样性 | 生成表情的自然度和多样性 | 丰富且自然 |
| 视频质量 | 生成的视频质量和流畅度 | 高质量,>10分钟无明显漂移 |
定性结果
- 长视频生成:可生成超过 10分钟 的角色视频,无明显身份漂移
- 多视角切换:在正面、侧面、背面等视角间平滑切换
- 表情变化:自然过渡不同表情状态
- 动作生成:支持说话、肢体动作、手势等多种动作模式
与现有方法对比
| 方法 | 身份一致性 | 多视角支持 | 长视频支持 | 开源 |
|---|---|---|---|---|
| Gloria | ★★★★★ | 完整支持 | >10分钟 | 待定 |
| WildActor | ★★★★☆ | 有限支持 | 中等 | 已开源 |
| Kling-MotionControl | ★★★☆☆ | 需参考视频 | 短片段 | 商业闭源 |
与相关方法对比
WildActor 对比
WildActor(arXiv: 2603.00586)是另一篇研究角色视频生成身份一致性的工作,发表于 CVPR 2026。2
| 特性 | Gloria | WildActor |
|---|---|---|
| 核心思路 | Content Anchors 锚点机制 | 规范三视图生成 |
| 锚点类型 | 全局/视角/表情锚点 | 参考身份+提示序列 |
| 视角处理 | 显式视角锚点 | 三视图约束 |
| 训练数据 | 大规模视频自动提取 | 精心收集数据 |
| 视频时长 | >10分钟 | 中等长度 |
Kling-MotionControl 对比
Kling-MotionControl 是快手推出的商业视频生成工具,主要面向运动控制场景。3
| 特性 | Gloria | Kling-MotionControl |
|---|---|---|
| 定位 | 研究论文方法 | 商业产品 |
| 运动控制 | 文本/音频驱动 | 参考视频驱动 |
| 身份一致性 | Content Anchors 保证 | 依赖参考视频质量 |
| 应用场景 | 研究、虚拟角色 | 短视频制作 |
| 开源情况 | 待定 | 闭源 |
方法论差异
- Gloria:强调分离身份保持与动作生成,通过锚点机制提供稳定参考
- WildActor:强调约束多视角一致性,通过规范三视图设计
- Kling-MotionControl:强调动作迁移,从参考视频提取运动信息
参考资源
论文链接
- arXiv: 2603.29931
- 项目主页: Gloria Project Page
- PDF: arXiv PDF
相关论文
- WildActor: Unconstrained Identity-Preserving Video Generation (arXiv: 2603.00586)2
- Kling-MotionControl Technical Report (arXiv: 2603.03160)3
相关主题
引用格式
@misc{2603.29931,
author = {Yuhang Yang and Fan Zhang and Huaijin Pi and Shuai Guo and Guowei Xu and Wei Zhai and Yang Cao and Zheng-Jun Zha},
title = {Gloria: Consistent Character Video Generation via Content Anchors},
year = {2026},
eprint = {2603.29931},
archivePrefix = {arXiv},
primaryClass = {cs.CV}
}