Metaphor

标签: multimodal-learning

此标签下有10条笔记。

2026年5月18日
N3D-VLM 原生3D定位视觉语言模型
2026年5月18日
Emu3 原生多模态统一模型
2026年5月18日
Show-o2 统一多模态模型
2026年5月18日
Video-3D LLM 场景理解
2026年5月18日
VLA视觉-语言-动作基础模型综述
2026年5月16日
多模态对齐与融合方法
2026年5月16日
多模态学习基础
2026年5月08日
Transfusion：统一多模态模型——下一个token预测与图像扩散
2026年5月03日
多模态大语言模型架构综述（2025-2026）
2026年5月03日
Qwen3-Omni：Thinker-Talker MoE架构详解

Created with Quartz v4.5.2 © 2026

GitHub
Discord Community