第五节 皮尔逊-Ⅲ型分布参数估计方法

水文频率分布线型选定后,剩下来的工作就是确定参数了。由上节知道皮尔逊-Ⅲ型和对数皮尔逊-Ⅲ型曲线中都包含有均值img、变差系数Cv和偏态系数Cs等3个独立的参数,一旦这3个参数确定,其分布就完全确定。由于水文变量的总体我们不可能知道,这就需要用有限的样本观测资料去估计总体分布线型中的参数,故称为参数估计。如何合理地估计参数,将直接影响到工程的设计标准、投资数量和经济效益,因此,参数估计在水文频率分析计算中至关重要。目前参数估计的方法很多,各有其优缺点,本节只介绍3种方法,即矩法、三点法和权函数法。由于皮尔逊-Ⅲ型曲线用得最多,加之上节所介绍的对数皮尔逊-Ⅲ型的参数估计可归结为皮尔逊-Ⅲ型的参数估计(只需研究取对数后的水文系列即可),所以本节的参数估计方法只针对皮尔逊-Ⅲ型分布。

一、矩法

随机变量X对原点离差的k次幂的数学期望E(Xk),称为随机变量X的k阶原点矩,而随机变量X对分布中心E(X)离差的k次幂的数学期望E{[k-E(x)]k},则称为X的k阶中心矩。水文分析计算中,通常称均值、变差系数、偏态系数的计算式(3-5)、式(3-8)及式(3-9)为矩法公式。这是因为均值的计算式就是样本的一阶原点矩。均方差的计算式(3-7)为二阶中心矩开方,偏态系数计算式(3-9)中的分子则为三阶中心矩。

式(3-5)、式(3-8)及式(3-9)只是样本统计参数的计算式,它们与相应的总体同名参数不一定相等。但是我们希望由样本系列计算出来的统计参数与总体更接近些,因此需将上述公式加以修正,这就是所谓的无偏估值公式或渐近无偏估值公式。

img为未知参数θ的估计量。且E img=θ[这里E imgimg的数学期望]。则称img为θ的无偏估计量。

img为未知参数θ的估计量img与样本容量有关),且

则称θ^img为θ的渐近无偏估计量。

img

按上述定义,我们可将式(3-5)、式(3-8)和式(3-9)作如下表示和修正。

img

水文计算人员习惯称上述三式为无偏估值公式。但实际上后两个公式估计出的Cv和Cs仍然是有偏的(渐近无偏)。必须指出,并不是说用上述无偏估值公式算出来的参数就代表总体参数,而是说有很多个同容量的样本资料,用上述三式计算出来的统计参数的均值。可望等于总体的同名参数。在现行水文频率计算中,当用矩法估计参数时,一般习惯都是用上述三式估算总体的参数,以作为适线法的参考数值(下面第六节讲述适线法),尽管后两个公式并不是精确的无偏估值公式。

二、三点法

当资料系列较长时,按无偏估值公式计算img、Cv的工作量较大,而三点法则比较简便。因为皮尔逊-Ⅲ型曲线的方程中包含有img、Cv、Cs3个参数,如果待求的皮尔逊-Ⅲ型曲线已经画出,就可以从这个曲线上任取3个点,其坐标为(xp1,P1)、(xp2,P2)及(xp3,P3),把这3个点的纵坐标值代入原方程中,便得到3个方程,联解便可求得3个参数值,这就是三点法的基本思路。但是,现在的问题是皮尔逊-Ⅲ型曲线待求,只有知道了3个参数后能画出,怎么办呢?

实际的做法是,先按经验频率点子绘出经验频率曲线,在此曲线上读取3点,并假定这3个点就在待求的皮尔逊-Ⅲ型曲线上,这样,可由式(3-20)建立如下的联立方程:

img

解上述方程组,消去均方差σ,得

img

并定名S为偏度系数,当P1、P2、P3已取定时,则有

img

的函数关系。有关S与Cs的关系已制成表格,见附表3。由式(3-32)求得S后,查表即可得到Cs值。三点法中的P2一般都取50%,P1和P3则取对称值,即P3=1-P1。如P=5%-50%-95%,P=3%-50%-97%。

再由式(3-30)可得

img

其中Φ(P1,Cs)-Φ(P3,Cs)及Φ50%只与Cs有关,其关系也已制成表,见附表4。这样由前面确定的Cs即可确定Φ(P1,Cs)-Φ(P3,Cs)及Φ50%之值,进而可确定σ、img

最后,由σ和img便可计算Cv值。

img

三点法方法非常简单,但致命弱点是难以得到三个点的精确位置。一般在目估的经验频率曲线上选取,结果因人而异,有一定的任意性。与矩法一样,三点法在实用中很少单独使用,一般都是与适线法相结合,作为适线法初选参数的一种手段。

三、权函数法

用矩法和三点法估计皮尔逊-Ⅲ型分布的3个参数时,由于方法本身的缺陷而产生一定的计算误差,其中尤以Cs的计算误差较大,致使结果严重失真。为提高参数Cs的计算精度,近年来水文学者作过很多努力,提出了不少估计方法,如极大似然法、各种单参数正法等。但比较有效的方法还应首推权函数法。该法由我国学者马秀峰于1984年正式提出,其实质在于用一阶、二阶权函数矩来推求Cs。实践证明,该法有较好的精度。下面我们将对权函数法作简单介绍。

对皮尔逊-Ⅲ型密度函数式(3-16)两端取对数得

img

将上式两边求导,并利用式(3-17)推出的关系式img化简可得

img

上式两边乘以权函数φ(x),再积分,则有

img

将左边分部积分,并利用皮尔逊-Ⅲ型曲线的性质

img

则上面含有积分的方程可化为下列形式:

img

利用式(3-17),则可由式(3-36)解出Cs,即

img

下面的问题是:如何选取一个权函数φ(x),使得“有限和”取代式(3-37)中的“无限积分”时Cs具有最高的计算精度。

权函数的选取应满足下列两个条件:

(1)φ(x)非负且连续可微。

(2)img

我们知道,用式(3-37)计算Cs要保持一定的计算精度,一个必要条件是该公式分母的积分运算,不因正负相消而失去有效数字。为此所选的权函数必须使函数(x-img)×φ′(x)在区间(a0,∞)上不改变符号。为满足这一条件,可取

img

求解上述微分方程得

img

其中λ>0,是为控制计算精度而设置的待定常数。经大量的计算表明,取λ=1具有较好的效果。

由λ=1和img可求出积分常数

img

由上式可知,所选取的权函数为正态分布的密度函数。

将式(3-40)代入式(3-37),并经整理可导出Cs的计算公式

img

式(3-41)~式(3-43)便是用权函数法计算皮尔逊-Ⅲ型频率曲线参数Cs的具体形式,其中式(3-42)和式(3-43)可分别理解为一阶与二阶加权中心矩。

四、抽样误差

由于水文系列的总体往往无限,目前的实测资料仅是一个样本,显然,由有限的样本资料来估计总体的相应统计参数值,总带有一定的误差,这种误差与计算误差不同,它是由随机抽样引起的,称为抽样误差。为叙述方便,下面仅以矩法的样本均值为例,说明抽样误差的概念和估算方法。

假设从某随机变量的总体中随意抽取k个容量相同的样本,分别算出各个样本的均值img,这些均值对其总体均值img的抽样误差为img(i=1,2,…,k)。抽样误差img有大有小,各种数值出现的机会不同,即每一数值都有一定的概率,也就是说它也是随机变量,因而样本均值img也是一随机变量,因为它们相差一常数img。既然img是随机变量,也就有其分布。我们称之为抽样误差分布。由误差分布理论知,抽样误差可近似服从正态分布。因此,img

的抽样分布与img的分布相同,也近似服从正态分布(因为它们相差一常数)。

可以证明,当样本个数k很多时,均值抽样分布的数学期望正好是总体的均值img。因此,可以用抽样分布中的均方差(标准差)img作为度量抽样误差的指标,σx大表示抽样误差大,img小表示抽样误差小。为区别起见,把这个均方差img称为样本均值的均方误。

由正态分布的性质知:

img

也就是说,如果我们随机抽样取一个样本,以此样本的均值作为总体均值的估计值,则有68.3%的可能性误差不超过img,有99.7%的可能性误差不超过img

以上对样本均值抽样误差的讨论,同样也适用于其他样本参数。σ、Cv和Cs的抽样误差也分别用σσ、σCv、σCs来度量,它们分别表示σ、Cv和Cs的抽样均方误。根据统计理论可导出各参数的均方误公式,它们与总体分布有关。

当总体为皮尔逊-Ⅲ型分布且用矩法式(3-27)~式(3-29)估算参数时,样本参数的均方误公式如下:

img

上述误差公式,只是许多容量相同的样本误差的平均情况,至于某个实际样本的误差可能要小于这些误差,也可能大于这些误差,不是公式所能估算的。样本实际误差的大小要看样本对总体的代表性高低而定。

表3-2列出了皮尔逊-Ⅲ型分布Cs=2Cv时各特征数的抽样误差。从表中可以看出,样本均值img和变差系数Cv的均方误相对较小,而偏态系数Cs的均方误则很大。例如,当n=100时,Cs的相对误差在40%~126%之间。如n=10时,则Cs的相对误差更大,在126%以上,就是说,超出了Cs本身的数值。水文资料系列一般都少于100年,由资料直接根据矩法公式计算Cs的相对误差太大,难以满足实际要求。因此,水文计算中,一般不直接使用矩法估算参数,而是广泛采用适线法、矩法、三点法以及权函数法,均可作为适线法初选参数的一种手段,且在使用矩法初选参数时,一般不计算Cs,而是假定Cs为Cv的某一倍数,这就是下一节所要介绍的内容。

表3-2 样本参数的均方误差(相对误差) %

img