最小二乘交叉验证(Least Squares Cross-Validation, LSCV)和直接插入法(Direct Plug-in, DPI)是两种常用于选择核密度估计带宽的方法。
原理与定义
最小二乘交叉验证(LSCV)
原理:通过交叉验证方法,计算密度估计的均方误差,选择使得均方误差最小的带宽。
公式:
L S C V ( h ) = ∫ R f ^ ( x ; h ) 2 d x − 2 n ∑ i = 1 n f ^ − i ( X i ; h ) LSCV(h) = \int_{\mathbb{R}} \hat{f}(x; h)^2 dx - \frac{2}{n} \sum_{i=1}^{n} \hat{f}_{-i}(X_i; h) LSCV(h)=∫Rf^(x;h)2dx−n2i=1∑nf^−i(Xi;h)
其中, f ^ − i ( X i ; h ) \hat{f}_{-i}(X_i; h) f^−i(Xi;h) 表示去掉第 i i i 个观测值后的核密度估计。
目标:最小化 L S C V ( h ) LSCV(h) LSCV(h) 以找到最佳带宽 h L S C V h_{LSCV} hLSCV 。
直接插入法(DPI)
原理:基于优化目标(如均方积分误差,AMISE),直接插入估计量来计算带宽。这个方法通过初步估计一些未知量,并将它们代入带宽选择公式中。
公式:
h A M I S E = ( d ∥ K ∥ L 2 2 n μ 2 ( κ ) 2 ∥ Δ f ∥ L 2 2 ) 1 d + 4 h_{AMISE} = \left( \frac{d \|K\|_{L_2}^2}{n \mu_2(\kappa)^2 \|\Delta f\|_{L_2}^2} \right)^{\frac{1}{d+4}} hAMISE=(nμ2(κ)2∥Δf∥L22d∥K∥L22)d+41
其中, ∥ Δ f ∥ L 2 2 \|\Delta f\|_{L_2}^2 ∥Δf∥L22 需要通过初步估计计算得到。
目标:通过直接插入法估计所需的未知量,最终得到最佳带宽。
计算步骤
LSCV
- 计算核密度估计 f ^ ( x ; h ) \hat{f}(x; h) f^(x;h) 。
- 交叉验证:去掉每一个数据点,计算去掉后的核密度估计值 f ^ − i ( X i ; h ) \hat{f}_{-i}(X_i; h) f^−i(Xi;h) 。
- 计算LSCV值:将这些估计值带入LSCV公式,计算出LSCV值。
- 优化带宽:通过数值优化,找到使得LSCV值最小的带宽 h L S C V h_{LSCV} hLSCV 。
DPI
- 初步估计:选择一个初步带宽矩阵 G \mathbf{G} G ,计算初步密度估计 f ~ ( x , G ) \tilde{f}(x, \mathbf{G}) f~(x,G) 。
- 估计拉普拉斯量:计算初步密度估计的拉普拉斯量,并求其 L 2 L_2 L2 范数的平方。
- 带入公式:将估计的 ∥ Δ f ∥ L 2 2 \|\Delta f\|_{L_2}^2 ∥Δf∥L22 带入带宽选择公式,计算最终的带宽矩阵 h A M I S E h_{AMISE} hAMISE 。
优缺点
LSCV
优点:
- 理论基础扎实,是一种无偏估计方法。
- 适用于不同类型的数据集,尤其是在不确定数据分布的情况下。
缺点:
- 计算量大,特别是在大数据集或多维数据中,计算每一个去掉点的核密度估计值非常耗时。
- 对带宽的选择较为敏感,优化过程可能较为复杂。
DPI
优点:
-
计算过程相对简单,尤其是在初步估计步骤得到合理估计后。
-
可以通过初步估计直接计算带宽,不需要进行复杂的交叉验证。
缺点:
-
依赖于初步估计的质量,如果初步估计不准确,最终结果也可能不准确。
-
需要对核函数和数据分布有一定的先验知识,以便正确计算公式中的各项。
适用场景
LSCV
-
更适合没有明确先验知识的数据集。
-
适用于需要精确估计误差的场景。
DPI
-
更适合有一定先验知识的数据集。
-
在初步估计容易获得的情况下,DPI可能更高效。
总结
LSCV和DPI是两种不同的带宽选择方法,各有优缺点。LSCV通过交叉验证方法来最小化估计误差,适用于各种数据集,但计算量较大。DPI则通过直接插入估计量来计算带宽,适用于有先验知识的数据集,计算相对简单但依赖于初步估计的准确性。在实际应用中,选择合适的方法取决于具体的数据特点和计算资源。