音频/语音处理与深度学习专题

本专题系统介绍音频/语音处理与深度学习的交叉领域,涵盖从基础信号处理到前沿多模态大模型的核心内容。


专题内容导航

音频表示与编码

文档描述关键概念
音频Tokenization与离散表示音频信号的离散化与量化方法SoundStream、Encodec、RVQ、VQ-VAE

自监督学习

文档描述关键概念
自监督语音表示学习Wav2Vec 2.0、HuBERT等对比学习方法对比学习、掩码预测、跨语言迁移

语音识别与合成

文档描述关键概念
语音识别深度学习端到端语音识别架构CTC、RNN-T、Whisper
语音合成与生成自回归与非自回归语音合成Tacotron、FastSpeech、VALL-E、HiFi-GAN

生成模型

文档描述关键概念
音频扩散模型扩散模型在音频生成中的应用AudioGen、MusicGen、DiffSound

多模态融合

文档描述关键概念
多模态音频-语言模型音频-语言联合建模Qwen-Audio、GPT-4o、Gemini

音频理解

文档描述关键概念
音频事件检测与理解音频场景分类、声音事件检测SED、声纹识别、异常检测

核心概念速查

音频信号处理基础

  • 采样率 (Sample Rate): 语音通常16kHz,音乐44.1kHz或48kHz
  • 梅尔频谱 (Mel Spectrogram): 人耳感知的频率表示
  • MFCC: 梅尔频率倒谱系数,传统特征
  • STFT: 短时傅里叶变换,时频分析基础

音频Tokenization

  • RVQ (Residual Vector Quantization): 残差矢量量化,多层码本
  • LFQ (Laryngologist Frequency Quantization): 专门针对语音的量化
  • Codec: 编解码器,端到端音频压缩

自监督表示学习

  • Wav2Vec 2.0: 对比学习+量化器,两阶段训练
  • HuBERT: Hidden Unit BERT,掩码预测目标
  • XLS-R: 跨语言自监督语音表示

语音识别

  • CTC (Connectionist Temporal Classification): 插入空白符处理变长对齐
  • RNN-T (RNN Transducer): 联合声学和语言建模
  • Attention-based Encoder-Decoder: 完全端到端

语音合成

  • Tacotron: 序列到序列声学模型
  • FastSpeech: 非自回归,Mel频谱并行生成
  • VALL-E: 首次音频LLM,参考编码器+音频解码器
  • HiFi-GAN: GAN基声码器,高质量波形生成

音频扩散模型

  • AudioGen: 自回归+扩散组合
  • MusicGen: Google音乐生成模型
  • DiffSound: 文本到音频生成

学习路径推荐

入门路径

  1. 音频表示: audio-tokenization-discrete-representation.md
  2. 语音识别: speech-recognition-deep-learning.md
  3. 语音合成: speech-synthesis-generation.md

进阶路径

  1. 自监督学习: self-supervised-speech-learning.md
  2. 音频扩散: audio-diffusion-models.md
  3. 多模态模型: multimodal-audio-language-models.md

实践路径

  1. 事件检测: audio-event-detection-understanding.md
  2. 合成生成: speech-synthesis-generation.md
  3. 多模态融合: multimodal-audio-language-models.md

与其他专题的联系

依赖关系

扩展方向


重要数据集

数据集描述规模
LibriSpeech英语语音识别960小时
VoxCeleb说话人识别1M+ utterances
AudioSet音频事件2M+ 10秒片段
MUSDB18音乐源分离150首歌曲
LJ Speech语音合成13,100短音频

重要论文推荐

  1. Wav2Vec 2.0: Baevski et al. (2020)
  2. HuBERT: Hsu et al. (2021)
  3. Whisper: Radford et al. (2022)
  4. VALL-E: Wang et al. (2023)
  5. MusicGen: Copet et al. (2024)
  6. Encodec: Défossez et al. (2022)

常见问题

Q: 音频tokenization和NLP中的tokenization有什么区别?

A: 两者核心思想类似(离散化连续信号),但音频tokenization处理的是连续波形或频谱,目标是生成有限词表的离散token来表示音频片段。音频token通常需要保留更多声学细节。

Q: 为什么语音合成需要单独的声码器?

A: 声码器将声学特征(如Mel频谱)转换为波形。高质量声码器(如HiFi-GAN)是语音合成系统音质的决定性因素。

Q: 音频扩散模型面临哪些独特挑战?

A: 主要挑战包括:1) 音频序列极长;2) 高采样率要求;3) 需要同时考虑语义和声学保真度。


最后更新: 2026-05-12