1. 精度的概念
定义:测量值与真实值(或标准值)的接近程度,称为精度。
精度与误差的大小相对应,因此可用误差大小来表示精度的高低,误差小则精度高,误差大则精度低。
精度包含了以下三类概念:
1)准确度(Accuracy):表示测量结果与真值之间的一致程度,它反映测量结果中系统误差与随机误差的综合。其定量特征可用测量的不确定度(或极限误差)来表示;
2)精密度(Precision):表示在一定条件下进行多次测量时,所得测量结果彼此之间符合的程度,它反映测量结果中随机误差的影响程度;
3)正确度(Trueness):表示测量结果中系统误差大小的程度,反映了规定条件下,测量结果中所有系统误差的综合。
2. 标准差
以下均为离散型数据,不讨论连续型。
2.1 数学期望(mean)
数学期望(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。它反映随机变量平均取值的大小。
2.2 方差(variance)
概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。离散数据的方差公式如下:
为所有样本值的算术平均值。实际上,方差公式的分母应为数据个数减一,即无偏方差,感兴趣可看知乎:《为什么样本方差的分母是 n-1?》。
2.3 标准差(standard deviation)
标准差,又称均方差,标准差定义是总体各单位标准值与其平均数离差平方和的算术平均数的平方根,即标准差是方差的算术平方根,用σ表示。
标准差能反映一个数据集的离散程度。简单来说,标准差是一组数据平均值分散程度的一种度量。一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。平均数相同的两组数据,标准差未必相同。
3. 3σ准则
3.1 正态分布
正态分布概念是由德国的数学家和天文学家Moivre于1733年首次提出的,但由于德国数学家Gauss率先将其应用于天文学研究,故正态分布又叫高斯分布。高斯对于正态分布的历史地位的确立起到了决定性的作用;正态分布是自然界及工程技术中最常见的分布之一,大量的随机现象都是服从或近似服从正态分布的,可以证明,如果一个随机指标受到诸多因素的影响,但其中任何一个因素都不起决定性作用,则该随机指标一定服从或近似服从正态分布。
3.2 3σ准则
3σ准则又称为拉依达准则,它是先假设一组检测数据只含有随机误差,对其进行计算处理得到标准偏差,按一定概率确定一个区间,认为凡超过这个区间的误差,就不属于随机误差而是粗大误差,含有该误差的数据应予以剔除。
这种判别处理原理及方法仅局限于对正态或近似正态分布的样本数据处理,它是以测量次数充分大为前提的,即其适用于有较多组数据的情况,当测量次数较少的情形用该准则剔除粗大误差是不够可靠的。因此,在测量次数较少的情况下,最好不要选用3σ准则,而用其他准则。
如图所示正态分布中,σ 为标准差,μ 为均值,x = μ 为图像的对称轴,3σ准则为:
数值分布在(μ-σ,μ+σ)中的概率为0.6827;
数值分布在(μ-2σ,μ+2σ)中的概率为0.9545;
数值分布在(μ-3σ,μ+3σ)中的概率为0.9973;
可以认为,一个正态分布的数据集的取值几乎全部集中在(μ-3σ,μ+3σ)区间内,超出这个范围的可能性仅占不到0.3%。
4. 附 其它常见误差概念
以上提到了统计及误差理论中的几个重要概念,实际上还有很多类似的概念,这里再列出几个,以备比较。
4.1 均方误差(mean square error, MSE)
均方误差是各数据偏离真实值的距离平方的平均数,也即误差平方和的平均数,计算公式形式上接近方差,但不完全一样,如果只有一组数据,样本方差就是均方误差。
4.2 均方根误差(root mean squared error, RMSE)
均方误差的开方叫均方根误差,同样,一定条件下,均方根误差就是标准差。
4.3 均方根(root mean square, RMS)
均方根值(RMS)也称为有效值,它的计算方法是先平方、再平均、然后开方,即
4.4 极差(range)
极差又称范围误差或全距,以R表示,是用来表示统计资料中的变异量数(measures of variation),其最大值与最小值之间的差距,即最大值减最小值后所得之数据