什么叫拟合程度?如何判断欠拟合、适度拟合、过拟合?
拟合度检验是对已制作好的预测模型进行检验,比较它们的预测结果与实际发生情况的吻合程度。通常是对数个预测模型同时进行检验,选其拟合度较好的进行试用。常用的拟合度检验方法有:剩余平方和检验、卡方(c2)检验和线性回归检验等。拟合度,也就是“R-squared”。
⑴剩余平方和检验是将利用预测的理论预测值( )与病害发生的实际情况(y)进行比较,求得它们的差异平方和(Q)、回归误差(S)及曲线相关比(r)的值,希望Q、S的值愈小愈好,曲线相关比(r)愈大愈好。 r(曲)=1-(Q/Lyy)
⑵卡方(c2)检验的计算公式
⑶回归误差检验法 (Sy/x检验)通常,多因素预测方程的通式为: y=b0+b1x1+b2x2+···+bnxn±2Sy/x,方程尾部的Sy/x为方程的回归误差。在利用预测方程的回归误差进行预测效果的检验时,认为预测值落在2个回归误差的范围之内,就认为预测正确,其实,回归误差是由建立预测方程的原始数据决定的,当原始数据的摆动范围愈大,所建方程的回归误差Sy/x也就愈大,此时用Sy/x作为检验标准,也就扩大了误差范围,因此,该方法的使用尚需探讨。
如何判断欠拟合、适度拟合、过拟合?
1.欠拟合:假定训练集误差是 15%,验证集误差是 16%。这样则说明算法并没有在训练集中得到很好的训练,如果训练集数据的拟合度不高,就是数据欠拟合,就可以说这种算法偏差比较高。也就是我们说的没有训练好。相反,它对于验证集产生的结果是合理的,验证集中的错误率只比训练集的多了 1%,所以这种算法偏差高,因为它甚至不能拟合训练集。就更别提验证集了。训练集和验证集的误差都较高,但相差很少——>欠拟合
2.适度拟合:训练集误差是 0.5%,验证集误差是 1%,这样的结果偏差和方差都很低,说明训练效果很好,这是我们想要的结果。训练集和验证集的误差都很低——>适度拟合
3.过拟合:假定训练集的误差是 1%,验证集误差是 11%,可以看出训练集训练的非常好,而验证集很差,从而可以判断可能过度拟合了训练集,在某种程度上,验证集并没有充分利用交叉验证集的作用,这就是过拟合现象,也称为“高方差”。训练集误差较低,验证集误差比训练集大较多——>过拟合
标签: 什么叫拟合程度 如何判断欠拟合适度拟