Metaphor

标签: vision-language

此标签下有14条笔记。

  • 2026年5月08日

    多模态学习

    • multimodal
    • vision-language
    • index
  • 2026年4月30日

    多模态学习索引

    • multimodal
    • vision-language
    • deep-learning
    • clip
    • llm
    • vlm
  • 2026年5月19日

    ThinkMorph:交错链式推理驱动的多模态涌现能力

    • multimodal-reasoning
    • chain-of-thought
    • emergent-abilities
    • vision-language
    • iclr-2026
  • 2026年5月16日

    商业VLM模型技术分析

    • multimodal
    • vlm
    • gpt-4v
    • gemini
    • claude
    • gemma
    • vision-language
  • 2026年5月16日

    多模态评估基准

    • multimodal-evaluation
    • benchmark
    • vlm
    • vision-language
    • vqa
    • captioning
  • 2026年5月16日

    多模态指令微调

    • multimodal
    • instruction-tuning
    • vision-language
    • fine-tuning
    • alignment
  • 2026年5月16日

    VLM架构分类体系

    • vlm
    • multimodal
    • vision-language
    • architecture
    • llava
    • minigpt
    • instructblip
  • 2026年5月12日

    多模态Sparse Autoencoders

    • mechanistic-interpretability
    • sparse-autoencoders
    • multimodal
    • vision-language
  • 2026年5月03日

    LaViDa:多模态扩散视觉-语言模型

    • diffusion
    • multimodal
    • vision-language
    • lavida
  • 2026年5月03日

    多模态大语言模型架构综述(2025-2026)

    • multimodal-learning
    • llm
    • vision-language
    • architecture
  • 2026年4月30日

    CLIP:对比语言-图像预训练

    • clip
    • multimodal
    • contrastive-learning
    • vision-language
    • zero-shot
  • 2026年4月30日

    LLaVA:大型多模态模型

    • llava
    • multimodal
    • vision-language
    • instruction-tuning
    • llm
  • 2026年4月30日

    多模态模型综述

    • multimodal
    • gpt-4v
    • gemini
    • vision-language
    • survey
  • 2026年4月30日

    视觉-语言预训练

    • vision-language
    • pretraining
    • multimodal
    • vlp
    • blip

Created with Quartz v4.5.2 © 2026

  • GitHub
  • Discord Community