Metaphor
Search
搜索
暗色模式
亮色模式
探索
标签: multimodal-learning
此标签下有10条笔记。
2026年5月18日
N3D-VLM 原生3D定位视觉语言模型
multimodal-learning
3d-scene-understanding
spatial-reasoning
vision-language-model
2026年5月18日
Emu3 原生多模态统一模型
multimodal-learning
vision-language-model
unified-model
autoregressive
2026年5月18日
Show-o2 统一多模态模型
multimodal-learning
vision-language-model
unified-model
flow-matching
2026年5月18日
Video-3D LLM 场景理解
multimodal-learning
3d-scene-understanding
video-understanding
vision-language-model
2026年5月18日
VLA视觉-语言-动作基础模型综述
vla
robotics
foundation-model
multimodal-learning
2026年5月16日
多模态对齐与融合方法
multimodal-learning
alignment
fusion
contrastive-learning
clip
2026年5月16日
多模态学习基础
multimodal-learning
representation-learning
cross-modal
fusion
alignment
2026年5月08日
Transfusion:统一多模态模型——下一个token预测与图像扩散
multimodal-learning
diffusion
transformer
unified-model
2026年5月03日
多模态大语言模型架构综述(2025-2026)
multimodal-learning
llm
vision-language
architecture
2026年5月03日
Qwen3-Omni:Thinker-Talker MoE架构详解
multimodal-learning
moe
audio-understanding
speech-generation