稀疏与结构化Hopfield网络

1. 引言：从稠密到稀疏的范式转变

经典和现代Hopfield网络都使用softmax激活，产生稠密的注意力分布——所有存储模式都有非零权重。但稠密检索有两大问题：

虚假态：检索结果是多个模式的混合，可能不是任何存储模式
缺乏稀疏性：生物神经元（如齿状回）的发放是稀疏的，不是全激活

稀疏与结构化Hopfield（Santos 2024-2025）通过Fenchel-Young损失统一框架解决了这些问题：

sparsemax：完全稀疏（top-1模式被选中）
$α$ -entmax：连续稀疏（介于softmax和sparsemax之间）
SparseMAP：结构化检索（top- $k$ 子集、连续跨度）
Fenchel-Young Hopfield：所有上述的数学统一

1.1 内容框架

┌─────────────────────────────────────────────────────────────────────┐
│              稀疏与结构化Hopfield统一框架                              │
├─────────────────────────────────────────────────────────────────────┤
│                                                                     │
│                    Fenchel-Young损失                                 │
│                          │                                          │
│      ┌───────────────────┼───────────────────┐                      │
│      ↓                   ↓                   ↓                      │
│   经典稀疏            连续稀疏              结构化                   │
│   sparsemax           α-entmax            SparseMAP                │
│   (top-1)             (1<α<2)             (top-k/span)             │
│      ↓                   ↓                   ↓                      │
│   精确检索            软检索              结构检索                  │
│   M个模式             介于稠密和稀疏       关联检索                  │
│                                                                     │
│              所有 = Hopfield-Fenchel-Young 特殊情况                 │
└─────────────────────────────────────────────────────────────────────┘

1.2 关联文档

2. Fenchel-Young损失基础

2.1 凸分析回顾

Fenchel对偶：凸函数 $Ω : R^{N} \to R \cup {+ \infty}$ 的对偶为：

$Ω^{*} (θ) = sup_{y \in dom (Ω)} ⟨ θ, y ⟩ - Ω (y)$

Fenchel-Young不等式：

$Ω (y) + Ω^{*} (θ) - ⟨ θ, y ⟩ \geq 0$

等号成立当且仅当 $y = \nabla Ω^{*} (θ)$ 。

2.2 Fenchel-Young损失

定义（Blondel & Martins 2020）：

$L_{Ω} (y^{*}; θ) = Ω (y^{*}) + Ω^{*} (θ) - ⟨ θ, y^{*} ⟩$

其中 $y^{*}$ 是真实标签， $θ$ 是预测得分。

性质：

$L_{Ω} (y^{*}; θ) \geq 0$
$L_{Ω} = 0$ 当且仅当 $y^{*} = \nabla Ω^{*} (θ)$ （完美预测）
$L_{Ω}$ 对 $θ$ 连续、可微（几乎处处）

2.3 梯度 = argmax

核心关系：

$\nabla_{θ} L_{Ω} (y^{*}; θ) = \nabla Ω^{*} (θ) - y^{*}$

$\nabla Ω^{*} (θ) = ar g max_{y \in dom (Ω)} ⟨ θ, y ⟩ - Ω (y)$

即对偶函数的梯度是正则化argmax。

2.4 重要特例

$Ω$ （正则化）	$\nabla Ω^{*} (θ)$ （预测）	性质
Shannon negentropy	softmax	稠密
$ℓ_{2}^{2} /2$	sparsemax	完全稀疏
Tsallis $q$ -entropy	$α$ -entmax（ $α = q + 1$ ）	连续稀疏
$γ$ -norm	$γ$ -normmax	中等稀疏
Indicator of polytope	SparseMAP	结构化

3. 稀疏Hopfield网络

3.1 Sparsemax激活

$Ω (y) = ∥ y ∥^{2} /2$ （ $ℓ_{2}$ 正则化）：

$\nabla Ω^{*} (θ) = sparsemax (θ) = ar g max_{y \in △^{N - 1}} ⟨ θ, y ⟩ - \frac{1}{2} ∥ y ∥^{2}$

性质：

稀疏：许多分量恰好为零
欧几里得投影： $sparsemax (θ)$ 是 $θ$ 到单纯形 $△^{N - 1}$ 的投影

计算：通过阈值法：

def sparsemax(theta):
    """sparsemax激活"""
    # 1. 排序
    sorted_theta, _ = torch.sort(theta, descending=True)
    # 2. 计算阈值
    cumsum = sorted_theta.cumsum(dim=-1)
    k = torch.arange(1, theta.shape[-1] + 1, device=theta.device).float()
    # 找到满足 cumsum - k*threshold > 0 的最大k
    support = cumsum - sorted_theta > 0
    k_star = support.sum(dim=-1, keepdim=True)
    threshold = cumsum.gather(-1, k_star - 1) / k_star
    # 投影
    return torch.clamp(theta - threshold, min=0)

3.2 稀疏Hopfield更新

稀疏Hopfield能量（Santos 2024）：

$E_{sparse} (ξ) = - ξ^{⊤} X sparsemax (X^{⊤} ξ) + \frac{1}{2} ∥ ξ ∥^{2}$

更新规则：

$ξ^{new} = X sparsemax (X^{⊤} ξ)$

特性：

只激活top- $k$ 相关模式（ $k$ 由sparsemax自动决定）
检索结果是单个存储模式的精确恢复（无混合）
精确检索容量 = $M$ （所有存储模式）

3.3 $α$ -entmax激活

Tsallis $q$ -entropy：

Metaphor

探索

稀疏与结构化Hopfield网络

1. 引言：从稠密到稀疏的范式转变

1.1 内容框架

1.2 关联文档

2. Fenchel-Young损失基础

2.1 凸分析回顾

2.2 Fenchel-Young损失

2.3 梯度 = argmax

2.4 重要特例

3. 稀疏Hopfield网络

3.1 Sparsemax激活

3.2 稀疏Hopfield更新

3.3 $α$ -entmax激活

关系图谱

目录

反向链接

Metaphor

探索

稀疏与结构化Hopfield网络

1. 引言：从稠密到稀疏的范式转变

1.1 内容框架

1.2 关联文档

2. Fenchel-Young损失基础

2.1 凸分析回顾

2.2 Fenchel-Young损失

2.3 梯度 = argmax

2.4 重要特例

3. 稀疏Hopfield网络

3.1 Sparsemax激活

3.2 稀疏Hopfield更新

3.3 α-entmax激活

关系图谱

目录

反向链接

3.3 $α$ -entmax激活