音频/语音处理与深度学习专题

本专题系统介绍音频/语音处理与深度学习的交叉领域，涵盖从基础信号处理到前沿多模态大模型的核心内容。

专题内容导航

音频表示与编码

文档	描述	关键概念
音频Tokenization与离散表示	音频信号的离散化与量化方法	SoundStream、Encodec、RVQ、VQ-VAE

自监督学习

文档	描述	关键概念
自监督语音表示学习	Wav2Vec 2.0、HuBERT等对比学习方法	对比学习、掩码预测、跨语言迁移

语音识别与合成

文档	描述	关键概念
语音识别深度学习	端到端语音识别架构	CTC、RNN-T、Whisper
语音合成与生成	自回归与非自回归语音合成	Tacotron、FastSpeech、VALL-E、HiFi-GAN

生成模型

文档	描述	关键概念
音频扩散模型	扩散模型在音频生成中的应用	AudioGen、MusicGen、DiffSound

多模态融合

文档	描述	关键概念
多模态音频-语言模型	音频-语言联合建模	Qwen-Audio、GPT-4o、Gemini

音频理解

文档	描述	关键概念
音频事件检测与理解	音频场景分类、声音事件检测	SED、声纹识别、异常检测

核心概念速查

音频信号处理基础

采样率 (Sample Rate): 语音通常16kHz，音乐44.1kHz或48kHz
梅尔频谱 (Mel Spectrogram): 人耳感知的频率表示
MFCC: 梅尔频率倒谱系数，传统特征
STFT: 短时傅里叶变换，时频分析基础

音频Tokenization

RVQ (Residual Vector Quantization): 残差矢量量化，多层码本
LFQ (Laryngologist Frequency Quantization): 专门针对语音的量化
Codec: 编解码器，端到端音频压缩

自监督表示学习

Wav2Vec 2.0: 对比学习+量化器，两阶段训练
HuBERT: Hidden Unit BERT，掩码预测目标
XLS-R: 跨语言自监督语音表示

语音识别

CTC (Connectionist Temporal Classification): 插入空白符处理变长对齐
RNN-T (RNN Transducer): 联合声学和语言建模
Attention-based Encoder-Decoder: 完全端到端

语音合成

Tacotron: 序列到序列声学模型
FastSpeech: 非自回归，Mel频谱并行生成
VALL-E: 首次音频LLM，参考编码器+音频解码器
HiFi-GAN: GAN基声码器，高质量波形生成

音频扩散模型

AudioGen: 自回归+扩散组合
MusicGen: Google音乐生成模型
DiffSound: 文本到音频生成

学习路径推荐

入门路径

音频表示: audio-tokenization-discrete-representation.md
语音识别: speech-recognition-deep-learning.md
语音合成: speech-synthesis-generation.md

进阶路径

自监督学习: self-supervised-speech-learning.md
音频扩散: audio-diffusion-models.md
多模态模型: multimodal-audio-language-models.md

实践路径

事件检测: audio-event-detection-understanding.md
合成生成: speech-synthesis-generation.md
多模态融合: multimodal-audio-language-models.md

与其他专题的联系

依赖关系

transformer-and-attention — Transformer是音频模型的核心架构
multimodal-llm-architectures-2025 — 多模态LLM包含音频能力
diffusion-model — 扩散模型扩展到音频生成
self-supervised-learning — 自监督学习方法在语音中的体现

扩展方向

语音对话: agentic-ai-fundamentals — 语音交互Agent
音乐生成: video-diffusion-models-fundamentals — 音乐作为时序生成
音频安全: llm-adversarial-security — 语音对抗攻击

重要数据集

数据集	描述	规模
LibriSpeech	英语语音识别	960小时
VoxCeleb	说话人识别	1M+ utterances
AudioSet	音频事件	2M+ 10秒片段
MUSDB18	音乐源分离	150首歌曲
LJ Speech	语音合成	13,100短音频

重要论文推荐

Wav2Vec 2.0: Baevski et al. (2020)
HuBERT: Hsu et al. (2021)
Whisper: Radford et al. (2022)
VALL-E: Wang et al. (2023)
MusicGen: Copet et al. (2024)
Encodec: Défossez et al. (2022)

常见问题

Q: 音频tokenization和NLP中的tokenization有什么区别？

A: 两者核心思想类似（离散化连续信号），但音频tokenization处理的是连续波形或频谱，目标是生成有限词表的离散token来表示音频片段。音频token通常需要保留更多声学细节。

Q: 为什么语音合成需要单独的声码器？

A: 声码器将声学特征（如Mel频谱）转换为波形。高质量声码器（如HiFi-GAN）是语音合成系统音质的决定性因素。

Q: 音频扩散模型面临哪些独特挑战？

A: 主要挑战包括：1) 音频序列极长；2) 高采样率要求；3) 需要同时考虑语义和声学保真度。

最后更新: 2026-05-12

Metaphor

探索

音频/语音处理与深度学习专题索引

音频/语音处理与深度学习专题

专题内容导航

音频表示与编码

自监督学习

语音识别与合成

生成模型

多模态融合

音频理解

核心概念速查

音频信号处理基础

音频Tokenization

自监督表示学习

语音识别

语音合成

音频扩散模型

学习路径推荐

入门路径

进阶路径

实践路径

与其他专题的联系

依赖关系

扩展方向

重要数据集

重要论文推荐

常见问题

Q: 音频tokenization和NLP中的tokenization有什么区别？

Q: 为什么语音合成需要单独的声码器？

Q: 音频扩散模型面临哪些独特挑战？

音频扩散模型

音频事件检测与理解

音频Tokenization与离散表示

多模态音频-语言模型

自监督语音表示学习

语音识别深度学习

语音合成与生成