点估计

定义

点估计 是指用样本数据构造一个统计量 $\hat{θ}$ ，作为未知参数 $θ$ 的一个具体数值估计。

它回答的是“参数大概取多少”这个问题：在样本有限、总体参数未知时，我们希望用一个可计算的统计量尽可能逼近真实参数。

估计量与估计值

估计量（Estimator）： $\hat{θ} = \hat{θ} (X_{1}, \dots, X_{n})$ ，是统计量。
估计值（Estimate）：将样本观测值代入估计量后得到的具体数值。

点估计通常是后续区间估计和假设检验的基础。

为什么需要多个评判标准？ 想象你要估计一座山的海拔高度。不同的人用不同的方法测量可能得到不同的结果：有人用 GPS（可能非常精确但可能有系统偏差），有人用气压计（受天气影响），有人看地图等。我们需要多个标准来判断哪个估计”更好”——这正是估计量评判标准存在的意义。

无偏性关注的是”多次测量结果的平均值是否等于真实值”；
有效性关注的是”测量的波动大小”；
一致性关注的是”样本量增大时估计是否越来越准”；
MSE 则综合考虑偏差和方差的影响。

矩估计法

原理

矩估计法（Method of Moments, MOM） 的思想是用样本矩估计相应的总体矩。

设总体有 $k$ 个未知参数 $θ_{1}, \dots, θ_{k}$ 。总体矩是参数的函数：

μ_{j} = E_{θ} [X^{j}] = g_{j} (θ_{1}, \dots, θ_{k}), j = 1, 2, \dots, k

样本矩：

m_{j} = \frac{1}{n} i = 1 \sum n X_{i}^{j}

令总体矩等于样本矩，解方程组得到参数估计：

⎩ ⎨ ⎧ μ_{1} (θ_{1}, \dots, θ_{k}) = m_{1} μ_{2} (θ_{1}, \dots, θ_{k}) = m_{2} ⋮ μ_{k} (θ_{1}, \dots, θ_{k}) = m_{k}

示例：正态分布

设 $X_{1}, \dots, X_{n} \sim N (μ, σ^{2})$ ，有两个未知参数 $μ, σ^{2}$ 。

总体矩：

$μ_{1} = E [X] = μ$
$μ_{2} = E [X^{2}] = μ^{2} + σ^{2}$

样本矩：

$m_{1} = \overset{ˉ}{X}$
$m_{2} = \frac{1}{n} \sum X_{i}^{2}$

方程组：

$\overset{μ}{^} = \overset{ˉ}{X}$
$\overset{μ}{^}^{2} + \overset{σ}{^}^{2} = \frac{1}{n} \sum X_{i}^{2}$

解得：

$\overset{μ}{^}_{MOM} = \overset{ˉ}{X}$
$\overset{σ}{^}_{MOM}^{2} = \frac{1}{n} \sum (X_{i} - \overset{ˉ}{X})^{2}$

注意： $\overset{σ}{^}_{MOM}^{2}$ 使用除以 $n$ （而非 $n - 1$ ）的样本方差。

极大似然估计

似然函数

似然函数（Likelihood Function） 是给定参数 $θ$ 时，观测到当前样本的概率（密度）：

L (θ; x) = i = 1 \prod n f (x_{i}; θ)

极大似然估计的定义

极大似然估计（Maximum Likelihood Estimation, MLE） $\hat{θ}_{M L E}$ 满足：

L (\hat{θ}_{M L E}; x) = θ \in Θ max L (θ; x)

或等价地，最大化对数似然函数：

ℓ (θ) = lo g L (θ; x), \frac{\partial ℓ ( θ )}{\partial θ}_{θ = \hat{θ}_{M L E}} = 0

MLE 的直观理解：可以把似然函数想象成一幅”参数-可能性”的地形图。给定观测数据后，不同的参数值对应着不同的”可能性高度”。MLE 的目标就是找到这座山的”峰顶”——即使观测数据出现概率最大的参数值。

举例来说，如果抛掷 10 次硬币出现 7 次正面，MLE 估计的 $p = 0.7$ 正是因为这个值使得”观测到 7 次正面”这件事最容易发生。¹

MLE 的求解步骤

写出似然函数 $L (θ; x) = \prod_{i = 1}^{n} f (x_{i}; θ)$ 。
取对数得到对数似然函数 $ℓ (θ) = lo g L (θ; x)$ 。
求导并令导数为零： $\frac{\partial ℓ ( θ )}{\partial θ} = 0$ 。
解方程得到 $\hat{θ}_{M L E}$ 。
验证二阶导数小于零（确保是极大值）。

示例：正态分布

设 $X_{1}, \dots, X_{n} \sim N (μ, σ^{2})$ ，参数均未知。

似然函数：

L (μ, σ^{2}) = i = 1 \prod n \frac{1}{2 π σ ^{2}} exp (- \frac{( x _{i} - μ ) ^{2}}{2 σ ^{2}})

对数似然函数：

ℓ (μ, σ^{2}) = - \frac{n}{2} lo g (2 π) - \frac{n}{2} lo g σ^{2} - \frac{1}{2 σ ^{2}} i = 1 \sum n (x_{i} - μ)^{2}

对 $μ$ 求偏导并令为零：

\frac{\partial ℓ}{\partial μ} = \frac{1}{σ ^{2}} i = 1 \sum n (x_{i} - μ) = 0 \Rightarrow \overset{μ}{^}_{M L E} = \overset{ˉ}{X}

对 $σ^{2}$ 求偏导并令为零：

\frac{\partial ℓ}{\partial σ ^{2}} = - \frac{n}{2 σ ^{2}} + \frac{1}{2 ( σ ^{2} ) ^{2}} i = 1 \sum n (x_{i} - μ)^{2} = 0 \Rightarrow \overset{σ}{^}_{M L E}^{2} = \frac{1}{n} i = 1 \sum n (x_{i} - \overset{ˉ}{X})^{2}

评判标准

之所以需要多个标准，是因为估计量之间通常存在权衡：

无偏性只保证长期平均不偏离真值，但不一定方差小；
有效性关注方差大小，但通常是在无偏估计量之间比较；
一致性强调大样本下是否趋近真值，却不保证小样本时足够稳定；
MSE把偏差和方差统一起来，更适合综合比较。

因此，一个估计量往往不可能在所有维度上都“最优”，实际应用中需要根据样本规模、可接受偏差、计算复杂度和推断目的综合选择。

无偏性

无偏估计量： $E_{θ} (\hat{θ}) = θ, \forall θ$

渐近无偏： $lim_{n \to \infty} E_{θ} (\hat{θ}) = θ$

有偏估计量：偏差 $Bias (\hat{θ}) = E_{θ} (\hat{θ}) - θ$

例子： $\overset{σ}{^}_{MOM}^{2} = \frac{1}{n} \sum (X_{i} - \overset{ˉ}{X})^{2}$ 是有偏的（偏差为 $- σ^{2} / n$ ），而 $\overset{σ}{^}^{2} = \frac{1}{n - 1} \sum (X_{i} - \overset{ˉ}{X})^{2}$ 是无偏的。

有效性（CRLB 下界）

克拉美-罗不等式（Cramér-Rao Lower Bound, CRLB） 给出了无偏估计量方差的理论下界。

若 $\hat{θ}$ 是 $θ$ 的无偏估计量，且满足正则条件，则：

Var (\hat{θ}) \geq \frac{1}{n I ( θ )}

其中 $I (θ) = E_{θ} [(\frac{\partial l o g f ( X )}{\partial θ})^{2}]$ 为费希尔信息量。

若无偏估计量达到 CRLB，则称其为有效估计量（Efficient Estimator）。

一致性（相合性）

一致估计量（Consistent Estimator）：当样本容量 $n \to \infty$ 时，

\hat{θ}_{n} P θ

即估计量依概率收敛于真实参数。

均方误差

MSE (\hat{θ}) = E_{θ} [(\hat{θ} - θ)^{2}] = Var (\hat{θ}) + [Bias (\hat{θ})]^{2}

MSE 统一衡量了估计量的方差和偏差。

应用

常用估计量总结

总体分布	未知参数	MLE	是否无偏
$N (μ, σ^{2})$	$μ$	$\overset{ˉ}{X}$	是
$N (μ, σ^{2})$	$σ^{2}$	$\frac{1}{n} \sum (X_{i} - \overset{ˉ}{X})^{2}$	否（除 $n - 1$ 才无偏）
$P (λ)$	$λ$	$\overset{ˉ}{X}$	是
$U (0, θ)$	$θ$	$X_{(n)}$	有偏（乘 $\frac{n + 1}{n}$ 才无偏）
$B in (n, p)$	$p$	$\overset{ˉ}{X} / n$	是

Metaphor

探索

点估计

点估计

定义

估计量与估计值

矩估计法

原理

示例：正态分布

极大似然估计

似然函数

极大似然估计的定义

MLE 的求解步骤

示例：正态分布

评判标准

无偏性

有效性（CRLB 下界）

一致性（相合性）

均方误差

应用

常用估计量总结

相关章节

关系图谱

目录

反向链接

Metaphor

探索

点估计

点估计

定义

估计量与估计值

矩估计法

原理

示例：正态分布

极大似然估计

似然函数

极大似然估计的定义

MLE 的求解步骤

示例：正态分布

评判标准

无偏性

有效性（CRLB 下界）

一致性（相合性）

均方误差

应用

常用估计量总结

相关章节

Footnotes

关系图谱

目录

反向链接