音频/语音处理与深度学习专题
本专题系统介绍音频/语音处理与深度学习的交叉领域,涵盖从基础信号处理到前沿多模态大模型的核心内容。
专题内容导航
音频表示与编码
自监督学习
| 文档 | 描述 | 关键概念 |
|---|
| 自监督语音表示学习 | Wav2Vec 2.0、HuBERT等对比学习方法 | 对比学习、掩码预测、跨语言迁移 |
语音识别与合成
| 文档 | 描述 | 关键概念 |
|---|
| 语音识别深度学习 | 端到端语音识别架构 | CTC、RNN-T、Whisper |
| 语音合成与生成 | 自回归与非自回归语音合成 | Tacotron、FastSpeech、VALL-E、HiFi-GAN |
生成模型
| 文档 | 描述 | 关键概念 |
|---|
| 音频扩散模型 | 扩散模型在音频生成中的应用 | AudioGen、MusicGen、DiffSound |
多模态融合
| 文档 | 描述 | 关键概念 |
|---|
| 多模态音频-语言模型 | 音频-语言联合建模 | Qwen-Audio、GPT-4o、Gemini |
音频理解
核心概念速查
音频信号处理基础
- 采样率 (Sample Rate): 语音通常16kHz,音乐44.1kHz或48kHz
- 梅尔频谱 (Mel Spectrogram): 人耳感知的频率表示
- MFCC: 梅尔频率倒谱系数,传统特征
- STFT: 短时傅里叶变换,时频分析基础
音频Tokenization
- RVQ (Residual Vector Quantization): 残差矢量量化,多层码本
- LFQ (Laryngologist Frequency Quantization): 专门针对语音的量化
- Codec: 编解码器,端到端音频压缩
自监督表示学习
- Wav2Vec 2.0: 对比学习+量化器,两阶段训练
- HuBERT: Hidden Unit BERT,掩码预测目标
- XLS-R: 跨语言自监督语音表示
语音识别
- CTC (Connectionist Temporal Classification): 插入空白符处理变长对齐
- RNN-T (RNN Transducer): 联合声学和语言建模
- Attention-based Encoder-Decoder: 完全端到端
语音合成
- Tacotron: 序列到序列声学模型
- FastSpeech: 非自回归,Mel频谱并行生成
- VALL-E: 首次音频LLM,参考编码器+音频解码器
- HiFi-GAN: GAN基声码器,高质量波形生成
音频扩散模型
- AudioGen: 自回归+扩散组合
- MusicGen: Google音乐生成模型
- DiffSound: 文本到音频生成
学习路径推荐
入门路径
- 音频表示:
audio-tokenization-discrete-representation.md
- 语音识别:
speech-recognition-deep-learning.md
- 语音合成:
speech-synthesis-generation.md
进阶路径
- 自监督学习:
self-supervised-speech-learning.md
- 音频扩散:
audio-diffusion-models.md
- 多模态模型:
multimodal-audio-language-models.md
实践路径
- 事件检测:
audio-event-detection-understanding.md
- 合成生成:
speech-synthesis-generation.md
- 多模态融合:
multimodal-audio-language-models.md
与其他专题的联系
依赖关系
扩展方向
重要数据集
| 数据集 | 描述 | 规模 |
|---|
| LibriSpeech | 英语语音识别 | 960小时 |
| VoxCeleb | 说话人识别 | 1M+ utterances |
| AudioSet | 音频事件 | 2M+ 10秒片段 |
| MUSDB18 | 音乐源分离 | 150首歌曲 |
| LJ Speech | 语音合成 | 13,100短音频 |
重要论文推荐
- Wav2Vec 2.0: Baevski et al. (2020)
- HuBERT: Hsu et al. (2021)
- Whisper: Radford et al. (2022)
- VALL-E: Wang et al. (2023)
- MusicGen: Copet et al. (2024)
- Encodec: Défossez et al. (2022)
常见问题
Q: 音频tokenization和NLP中的tokenization有什么区别?
A: 两者核心思想类似(离散化连续信号),但音频tokenization处理的是连续波形或频谱,目标是生成有限词表的离散token来表示音频片段。音频token通常需要保留更多声学细节。
Q: 为什么语音合成需要单独的声码器?
A: 声码器将声学特征(如Mel频谱)转换为波形。高质量声码器(如HiFi-GAN)是语音合成系统音质的决定性因素。
Q: 音频扩散模型面临哪些独特挑战?
A: 主要挑战包括:1) 音频序列极长;2) 高采样率要求;3) 需要同时考虑语义和声学保真度。
最后更新: 2026-05-12