Metaphor

标签: multimodal-learning

此标签下有10条笔记。

  • 2026年5月18日

    N3D-VLM 原生3D定位视觉语言模型

    • multimodal-learning
    • 3d-scene-understanding
    • spatial-reasoning
    • vision-language-model
  • 2026年5月18日

    Emu3 原生多模态统一模型

    • multimodal-learning
    • vision-language-model
    • unified-model
    • autoregressive
  • 2026年5月18日

    Show-o2 统一多模态模型

    • multimodal-learning
    • vision-language-model
    • unified-model
    • flow-matching
  • 2026年5月18日

    Video-3D LLM 场景理解

    • multimodal-learning
    • 3d-scene-understanding
    • video-understanding
    • vision-language-model
  • 2026年5月18日

    VLA视觉-语言-动作基础模型综述

    • vla
    • robotics
    • foundation-model
    • multimodal-learning
  • 2026年5月16日

    多模态对齐与融合方法

    • multimodal-learning
    • alignment
    • fusion
    • contrastive-learning
    • clip
  • 2026年5月16日

    多模态学习基础

    • multimodal-learning
    • representation-learning
    • cross-modal
    • fusion
    • alignment
  • 2026年5月08日

    Transfusion:统一多模态模型——下一个token预测与图像扩散

    • multimodal-learning
    • diffusion
    • transformer
    • unified-model
  • 2026年5月03日

    多模态大语言模型架构综述(2025-2026)

    • multimodal-learning
    • llm
    • vision-language
    • architecture
  • 2026年5月03日

    Qwen3-Omni:Thinker-Talker MoE架构详解

    • multimodal-learning
    • moe
    • audio-understanding
    • speech-generation

Created with Quartz v4.5.2 © 2026

  • GitHub
  • Discord Community