引言
ReLU(Rectified Linear Unit)神经网络是现代深度学习的基石之一。一个ReLU网络由多层仿射变换和逐分量应用的ReLU激活函数 交替组成。理解网络的深度(即隐藏层的数量)如何影响其表达力(能够表示的函数类别)是理论深度学习的核心问题之一。1
本文综述该领域在2025年前后的重大突破:研究者推翻了关于最大函数(MAX函数)深度复杂度的著名猜想,并给出了显著改善的上界。
背景:CPWL函数与深度下界
ReLU网络的基本性质
ReLU网络是连续分段线性函数(Continuous Piecewise Linear, CPWL),反之,Arora等人证明每个CPWL函数都可以由某个ReLU网络精确表示。12 这自然引出一个复杂性理论问题:表示给定函数至少需要多少层?
设 为定义在 上的CPWL函数集合, 为可以用 个隐藏层表示的函数集合。Wang和Sun3证明每个 可以写成若干个MAX函数的线性组合:
其中 是仿射映射,。
Hertrich等人的猜想
由于MAX函数是理解深度的关键目标函数,Hertrich、Basu、Di Summa和Skutella( NeurIPS ‘21 / SIDMA ‘23)4提出以下猜想:
猜想(Hertrich, Basu, Di Summa, Skutella, 2021):表示 个输入的最大函数 至少需要 个隐藏层。
此前,Arora等人2已证明 层足以表示所有CPWL函数(通过二分树结构实现MAX)。该猜想认为这个上界是下界,即最优的。
该猜想在多个特殊情况下得到验证:
新进展:推翻猜想
主要结果
2025年,Bakaev、Brunck、Hertrich、Stade和Yehudayoff1在论文《Better Neural Network Expressivity: Subdividing the Simplex》中推翻了该猜想。他们的核心结果表明:
定理1:对于 , 可以用 个隐藏层表示:
定理2:对于 ,所有CPWL函数都可以用 个隐藏层表示:
这意味着表示深度复杂度从 改进为 ,渐近改进了常数因子 。
关键突破:MAX₅的两层表示
该证明的关键一步是展示MAX₅可以用恰好2个隐藏层精确表示:
命题3:计算5个输入最大值的网络所需的最少隐藏层数恰好为2。
他们给出的显式构造为:1
其中每个项(如 )本身是若干max函数的嵌套组合,可由两层网络实现。这一定理还蕴含所有4输入CPWL函数都可用2层网络实现。
证明方法:三角形单纯形细分
多面体几何视角
新证明的核心思想是建立ReLU网络与多面体几何之间的深刻联系。17
每个多面体 对应其支撑函数:
支撑函数是凸的、正齐次的CPWL函数。MAXₙ的Newton多面体是 ,即 中的 维单纯形。
深度复杂度与Minkowski差
表示支撑函数 所需的隐藏层数,等价于找到两个多面体 (由凸包和Minkowski和递归构造),使得 。7 这被称为形式Minkowski差。
单纯形细分方法
研究者发现,与其直接构造 ,不如将单纯形 细分为若干”更简单”的多面体。关键引理为:1
引理10:MAXₙ所需的深度至多等于:存在多面体 使得 ,且每个交集 (有限交集)都属于 。
对于4-单纯形(),他们将其细分为4个菱形金字塔(rhombic pyramids)。每个金字塔可以表示为一个点()与一个平行四边形()的凸包,即属于 。
通过棱锥构造(pyramid construction), 的细分可以递归地推广到更高维,最终得到 到 类多面体的细分。
这揭示了几何直觉:每一层可以将需要”连接”的物体数量减少一个因子3,从而得到 的深度复杂度。
下界匹配分析
值得注意的是,研究者构造的网络仅使用分母为2的幂的权重(二进制分数),这恰好落入Averkov、Hojny和Merkert(ICLR ‘25)8研究的”十进制分数权重”网络类别。
后者证明对于这类网络,表示MAXₙ需要至少 层。新构造的 层上界与其下界几乎匹配(最多差一层)。
这表明:在允许小数权重的网络中, 深度复杂度可能是最优的。要进一步改进上界,需要使用分母含有大质因子的有理权重,甚至无理权重。
深度分离结果
除了MAX函数的精确表示复杂度,另一个重要研究方向是近似意义下的深度分离——是否存在函数可被depth-3网络高效近似,但depth-2网络即使规模指数大也无法近似?
Depth-2 vs Depth-3 指数分离
Safran、Reichman和Valiant(COLT ‘25)9给出了突破性结果:
定理:存在 -Lipschitz目标函数 ,使得:
- depth-3网络可用 规模高效近似 (常数精度)
- depth-2网络除非规模指数大(),否则无法近似
这是首个在Lipschitz常数、目标精度和定义域尺寸都固定为常数时成立的深度分离结果。之前的结果要求这些参数中至少有一个随维度多项式变化。
相关工作
Eldan和Shamir(COLT ‘16)10以及Daniely(COLT ‘17)11早期也证明了depth-2与depth-3之间的分离,但使用的函数具有随维度振荡的Lipschitz参数。Telgarsky(COLT ‘16)12则证明了更深网络相对于浅层网络的指数级优势。
开放问题与未来方向
- MAX₆的两层表示:虽然MAX₅已确定可用2层表示,但MAX₆是否也可以仍未知
- 常数深度表示CPWL:是否存在某个固定常数 使得所有CPWL函数都可用 层网络表示?
- 深度-宽度的权衡:深度如何与宽度交互以实现更高效的表示?
- ICNN模型的深度下界:与普通ReLU网络不同,输入凸神经网络(ICNN)可能需要任意深度来表示某些CPWL函数13
参考文献
Footnotes
-
Bakaev, E., Brunck, F., Hertrich, C., Stade, J., & Yehudayoff, A. (2026). Better Neural Network Expressivity: Subdividing the Simplex. arXiv:2505.14338. ↩ ↩2 ↩3 ↩4 ↩5 ↩6
-
Arora, R., Basu, A., Mianjy, P., & Mukherjee, A. (2018). Understanding deep neural networks with rectified linear units. ICLR. ↩ ↩2
-
Wang, S., & Sun, X. (2005). Generalization of hinging hyperplanes. IEEE Transactions on Information Theory, 51(12), 4425-4431. ↩
-
Hertrich, C., Basu, A., Di Summa, M., & Skutella, M. (2023). Towards lower bounds on the depth of ReLU neural networks. SIAM Journal on Discrete Mathematics, 37(2), 997-1029. (NeurIPS ‘21) ↩
-
Mukherjee, A., & Basu, A. (2017). Lower bounds over boolean inputs for deep neural networks with ReLU gates. arXiv:1711.03073. ↩
-
Haase, C., Hertrich, C., & Loho, G. (2023). Lower bounds on the depth of integral ReLU neural networks via lattice polytopes. ICLR. ↩
-
Valerdi, J. (2024). On minimal depth in neural networks. arXiv:2402.15315. ↩ ↩2
-
Averkov, G., Hojny, C., & Merkert, M. (2025). On the expressiveness of rational ReLU neural networks with bounded depth. ICLR. ↩
-
Safran, I., Reichman, D., & Valiant, P. (2025). Depth separations in neural networks: Separating the dimension from the accuracy. COLT. ↩
-
Eldan, R., & Shamir, O. (2016). The power of depth for feedforward neural networks. COLT. ↩
-
Daniely, A. (2017). Depth separations in neural networks. COLT. ↩
-
Telgarsky, M. (2016). Benefits of depth in neural networks. COLT. ↩
-
Bakaev, E., Brunck, F., Hertrich, C., Reichman, D., & Yehudayoff, A. (2025). On the depth of monotone ReLU neural networks and ICNNs. arXiv:2505.06169. ↩