偏差和方差有什么区别

偏差和方差有什么区别

Scroll Down

解释一

**偏差:**描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据,如下图第二行所示。

**方差:**描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散,如下图右列所示。

img

参考:Understanding the Bias-Variance Tradeoff

解释二

Bias:误差,对象是单个模型,期望输出与真实标记的差别

Variance:方差,对象是多个模型

从同一个数据集中,用科学的采样方法得到几个不同的子训练集,用这些训练集训练得到的模型往往并不相同。

img

以上图为例:
\1. 左上的模型偏差最大,右下的模型偏差最小;
\2. 左上的模型方差最小,右下的模型方差最大

为了理解第二点,可以看下图。蓝色和绿色分别是同一个训练集上采样得到的两个训练子集,由于采取了复杂的算法去拟合,两个模型差异很大。如果是拿直线拟合的话,显然差异不会这么大。

img

一般来说,偏差、方差和模型的复杂度之间的关系是这样子滴:

img

实际中,我们需要找到偏差和方差都较小的点。

XGBOOST中,我们选择尽可能多的树,尽可能深的层,来减少模型的偏差;
通过cross-validation,通过在验证集上校验,通过正则化,来减少模型的方差

从而获得较低的泛化误差。

Blog: https://blog.yilon.top