Metaphor
Search
搜索
暗色模式
亮色模式
探索
标签: vision-language
此标签下有14条笔记。
2026年5月08日
多模态学习
multimodal
vision-language
index
2026年4月30日
多模态学习索引
multimodal
vision-language
deep-learning
clip
llm
vlm
2026年5月19日
ThinkMorph:交错链式推理驱动的多模态涌现能力
multimodal-reasoning
chain-of-thought
emergent-abilities
vision-language
iclr-2026
2026年5月16日
商业VLM模型技术分析
multimodal
vlm
gpt-4v
gemini
claude
gemma
vision-language
2026年5月16日
多模态评估基准
multimodal-evaluation
benchmark
vlm
vision-language
vqa
captioning
2026年5月16日
多模态指令微调
multimodal
instruction-tuning
vision-language
fine-tuning
alignment
2026年5月16日
VLM架构分类体系
vlm
multimodal
vision-language
architecture
llava
minigpt
instructblip
2026年5月12日
多模态Sparse Autoencoders
mechanistic-interpretability
sparse-autoencoders
multimodal
vision-language
2026年5月03日
LaViDa:多模态扩散视觉-语言模型
diffusion
multimodal
vision-language
lavida
2026年5月03日
多模态大语言模型架构综述(2025-2026)
multimodal-learning
llm
vision-language
architecture
2026年4月30日
CLIP:对比语言-图像预训练
clip
multimodal
contrastive-learning
vision-language
zero-shot
2026年4月30日
LLaVA:大型多模态模型
llava
multimodal
vision-language
instruction-tuning
llm
2026年4月30日
多模态模型综述
multimodal
gpt-4v
gemini
vision-language
survey
2026年4月30日
视觉-语言预训练
vision-language
pretraining
multimodal
vlp
blip