Gloria：内容锚点实现角色身份一致性

论文概述

Gloria: Consistent Character Video Generation via Content Anchors 是由中国科学技术大学（USTC）、新南威尔士大学（UNSW）、香港大学（HKU）和电子科技大学（UESTC）的研究团队联合提出的角色视频生成方法。该论文已被 CVPR 2026 接收。¹

论文提出了 Content Anchors（内容锚点） 机制，通过一组紧凑的锚定帧来表示角色的视觉属性，从而在长视频生成中保持角色身份的长期一致性。该方法能够生成超过 10分钟 的高质量角色视频，且在动态镜头、多视角变化中保持角色外观的一致性。

核心贡献

Content Anchors 机制：将角色外观信息与动作生成分离，提供稳定的身份参考
Superset Content Anchoring：通过训练片段内外的线索防止复制粘贴伪影
RoPE as Weak Condition：编码位置偏移以区分多个锚点引用
可扩展的锚点提取流程：从海量视频中自动提取锚点

问题背景

角色身份一致性问题

数字角色是现代媒体的核心，无论是虚拟主播、数字人、电影特效还是游戏角色，都需要在视频生成中保持角色的长期身份一致性。然而，现有方法面临以下挑战：

问题类型	具体表现
上下文不足	早期帧的信息不足以维持长期一致性
记忆机制缺陷	利用非角色中心信息作为”记忆”，导致次优一致性
多视角不一致	角色在不同视角下外观差异明显
表情单一	难以生成多样化的表情变化

现有方法的局限性

基于单参考图像的方法：仅使用初始图像作为参考，随着时间推移容易出现身份漂移
基于多参考的方法：存在多参考冲突和复制粘贴伪影问题
面向内的视角（Inside-looking-in）：现有方法未能充分利用角色视频生成的独特视角特性

核心创新：Content Anchors

设计理念

Gloria 认识到角色视频生成本质上是一个**“外部观察内部”（Outside-looking-in）**的场景。观众从外部视角观察角色，角色自身不需要”记住”自己的外观。因此，使用一组紧凑的锚定帧来表示角色的视觉属性是合理的。

Content Anchors 的类型

Gloria 定义了三种类型的 Content Anchors：

1. Global Anchor（全局锚点）

提供角色的整体外观信息
通常是第一帧或参考图像
确保长期身份一致性的基础

2. Viewpoint Anchor（视角锚点）

捕捉角色在不同视角下的外观
包含正面、侧面、背面等多个视角
应对多视角变化场景

3. Expression Anchor（表情锚点）

代表不同表情状态的关键帧
如：开心、惊讶、愤怒等
支持丰富的表情生成

技术挑战与解决方案

Content Anchors 机制面临两个核心挑战，Gloria 提出了针对性的解决方案：

挑战	解决方案	技术细节
复制粘贴伪影	Superset Content Anchoring	提供片段内和片段外的训练线索，防止重复
多参考冲突	RoPE as Weak Condition	编码位置偏移，区分多个锚点引用

技术实现

整体框架

Gloria 的整体框架包含以下组件：

初始图像 + 文本/音频提示 + Content Anchors
         ↓
    Video Foundation Model
         ↓
   长时身份一致性角色视频

Superset Content Anchoring

Superset Content Anchoring 通过以下机制防止复制粘贴伪影：

片段内线索（Intra-clip Cues）：在训练时提供同一片段内的其他帧作为参考
片段外线索（Extra-clip Cues）：提供来自不同片段的额外参考信息
训练策略：模型学习区分真实内容和复制的伪影

RoPE as Weak Condition

RoPE（Rotary Position Embedding）作为弱条件，用于解决多锚点冲突问题：

位置编码：为每个锚点编码唯一的 positional offset
弱化条件：锚点不作为强制约束，而是提供软参考
灵活融合：模型自适应地融合多个锚点信息

可扩展的锚点提取流程

Gloria 构建了一个可扩展的流程，从海量视频中自动提取 Content Anchors：

视频分割：将长视频分割为短片段
视角聚类：根据视角对帧进行聚类
表情检测：识别并提取关键表情帧
质量筛选：过滤低质量锚点

训练策略

基于大规模角色视频数据集训练
使用多任务学习同时优化身份一致性和动作质量
联合文本/音频条件生成

实验结果

定量评估

Gloria 在多个指标上取得了优异表现：

指标	描述	结果
身份一致性	长期生成中角色外观保持程度	显著优于基线方法
多视角一致性	不同视角下的外观一致性	明显改进
表情多样性	生成表情的自然度和多样性	丰富且自然
视频质量	生成的视频质量和流畅度	高质量，>10分钟无明显漂移

定性结果

长视频生成：可生成超过 10分钟 的角色视频，无明显身份漂移
多视角切换：在正面、侧面、背面等视角间平滑切换
表情变化：自然过渡不同表情状态
动作生成：支持说话、肢体动作、手势等多种动作模式

与现有方法对比

方法	身份一致性	多视角支持	长视频支持	开源
Gloria	★★★★★	完整支持	>10分钟	待定
WildActor	★★★★☆	有限支持	中等	已开源
Kling-MotionControl	★★★☆☆	需参考视频	短片段	商业闭源

与相关方法对比

WildActor 对比

WildActor（arXiv: 2603.00586）是另一篇研究角色视频生成身份一致性的工作，发表于 CVPR 2026。²

特性	Gloria	WildActor
核心思路	Content Anchors 锚点机制	规范三视图生成
锚点类型	全局/视角/表情锚点	参考身份+提示序列
视角处理	显式视角锚点	三视图约束
训练数据	大规模视频自动提取	精心收集数据
视频时长	>10分钟	中等长度

Kling-MotionControl 对比

Kling-MotionControl 是快手推出的商业视频生成工具，主要面向运动控制场景。³

特性	Gloria	Kling-MotionControl
定位	研究论文方法	商业产品
运动控制	文本/音频驱动	参考视频驱动
身份一致性	Content Anchors 保证	依赖参考视频质量
应用场景	研究、虚拟角色	短视频制作
开源情况	待定	闭源

方法论差异

Gloria：强调分离身份保持与动作生成，通过锚点机制提供稳定参考
WildActor：强调约束多视角一致性，通过规范三视图设计
Kling-MotionControl：强调动作迁移，从参考视频提取运动信息

参考资源

论文链接

arXiv: 2603.29931
项目主页: Gloria Project Page
PDF: arXiv PDF

引用格式

@misc{2603.29931,
  author = {Yuhang Yang and Fan Zhang and Huaijin Pi and Shuai Guo and Guowei Xu and Wei Zhai and Yang Cao and Zheng-Jun Zha},
  title = {Gloria: Consistent Character Video Generation via Content Anchors},
  year = {2026},
  eprint = {2603.29931},
  archivePrefix = {arXiv},
  primaryClass = {cs.CV}
}

脚注

Gloria: Consistent Character Video Generation via Content Anchors, CVPR 2026, arXiv:2603.29931 ↩
WildActor: Unconstrained Identity-Preserving Video Generation, CVPR 2026, arXiv:2603.00586 ↩ ↩²
Kling-MotionControl Technical Report, arXiv:2603.03160 ↩ ↩²

Metaphor

探索

Gloria：内容锚点实现角色身份一致性

论文概述

核心贡献

问题背景

角色身份一致性问题

现有方法的局限性

核心创新：Content Anchors

设计理念

Content Anchors 的类型

1. Global Anchor（全局锚点）

2. Viewpoint Anchor（视角锚点）

3. Expression Anchor（表情锚点）

技术挑战与解决方案

技术实现

整体框架

Superset Content Anchoring

RoPE as Weak Condition

可扩展的锚点提取流程

训练策略

实验结果

定量评估

定性结果

与现有方法对比

与相关方法对比

WildActor 对比

Kling-MotionControl 对比

方法论差异

参考资源

论文链接

相关论文

相关主题

引用格式

脚注

关系图谱

目录

反向链接

Metaphor

探索

Gloria：内容锚点实现角色身份一致性

论文概述

核心贡献

问题背景

角色身份一致性问题

现有方法的局限性

核心创新：Content Anchors

设计理念

Content Anchors 的类型

1. Global Anchor（全局锚点）

2. Viewpoint Anchor（视角锚点）

3. Expression Anchor（表情锚点）

技术挑战与解决方案

技术实现

整体框架

Superset Content Anchoring

RoPE as Weak Condition

可扩展的锚点提取流程

训练策略

实验结果

定量评估

定性结果

与现有方法对比

与相关方法对比

WildActor 对比

Kling-MotionControl 对比

方法论差异

参考资源

论文链接

相关论文

相关主题

引用格式

脚注

Footnotes

关系图谱

目录

反向链接