Metaphor
Search
搜索
暗色模式
亮色模式
探索
标签: multimodal
此标签下有22条笔记。
2026年5月12日
音频/语音处理与深度学习专题索引
audio
speech
deep-learning
multimodal
2026年5月08日
多模态学习
multimodal
vision-language
index
2026年4月30日
多模态学习索引
multimodal
vision-language
deep-learning
clip
llm
vlm
2026年5月17日
Dynin-Omni - 全模态统一扩散语言模型
multimodal
diffusion
omnimodal
foundation-model
2026年5月17日
SenseNova-U1 - NEO-unify统一多模态架构
multimodal
foundation-model
unified-architecture
sense-nova
2026年5月16日
LLM增强的3D内容生成
3d-vision
llm
multimodal
3d-generation
2026年5月16日
HY-World 2.0:多模态世界模型
world-model
multimodal
3d-reconstruction
simulation
2026年5月16日
商业VLM模型技术分析
multimodal
vlm
gpt-4v
gemini
claude
gemma
vision-language
2026年5月16日
多模态指令微调
multimodal
instruction-tuning
vision-language
fine-tuning
alignment
2026年5月16日
VLM架构分类体系
vlm
multimodal
vision-language
architecture
llava
minigpt
instructblip
2026年5月12日
多模态音频-语言模型
multimodal
audio-language
gpt-4o
qwen-audio
gemini
real-time-speech
2026年5月12日
多模态Sparse Autoencoders
mechanistic-interpretability
sparse-autoencoders
multimodal
vision-language
2026年5月08日
BAGEL统一多模态基础模型
multimodal
unified-model
foundation-model
bagel
generation
2026年5月08日
EMMA高效统一多模态架构
multimodal
unified-model
efficient-architecture
emma
mixture-of-experts
2026年5月08日
Mogao交错多模态生成模型
multimodal
interleaved-generation
mogao
autoregressive
2026年5月06日
Dynin-Omni:掩码扩散全模态统一大模型
dynin-omni
multimodal
masked-diffusion
omnimodal
2026年5月06日
掩码扩散多模态学习
masked-diffusion
multimodal
unified-model
2026年5月03日
LaViDa:多模态扩散视觉-语言模型
diffusion
multimodal
vision-language
lavida
2026年4月30日
CLIP:对比语言-图像预训练
clip
multimodal
contrastive-learning
vision-language
zero-shot
2026年4月30日
LLaVA:大型多模态模型
llava
multimodal
vision-language
instruction-tuning
llm
2026年4月30日
多模态模型综述
multimodal
gpt-4v
gemini
vision-language
survey
2026年4月30日
视觉-语言预训练
vision-language
pretraining
multimodal
vlp
blip