第三节 随机变量的概率分布及其统计参数

一、随机变量

概率论的重要基本概念,除事件、概率之外,还有随机变量。若随机事件的试验结果,可用一个数X来表示,X因实验结果的不同而取得不同的数值,虽然在一次试验中,究竟会出现哪一个数值,事先无法知道,但取得某一数值却具有一定的概率,我们将这种随试验结果而发生变化的变量X称为随机变量。水文现象中的随机变量,一般是指某种水文特征值。如某站的年径流量、洪峰流量等。

随机变量可分为两大类型:

1.离散型随机变量

若某随机变量仅能取得有限个或可列无穷多个离散数值,则称此随机变量为离散型随机变量。例如掷一颗骰子,出现的点数中只可能取得1点、2点、3点、4点、5点、6点共六种可能值,而不能取得相邻两数间的任何中间值。

2.连续型随机变量

若某随机变量可以取得一个有限区间的任何数值,则称此随机变量为连续型随机变量。水文现象大多属于连续型随机变量。例如某站流量,可以在0和极限值之间变化,因而它可以是0与极限流量之间的任何数值。

为叙述方便,通常用大写字母表示随机变量,它的种种可能取值用相应的小写字母表示。如某随机变量为X,它的种种可能取值记为x。若取一个值,则X=x1,X=x2,…,X=xn。一般将x1,x2,…,xn称为系列。

二、随机变量的概率分布

如前所述,随机变量的取值与其概率是一一对应的,一般将这种对应关系称为随机变量的概率分布。对离散型随机变量,其概率分布一般以分布列表示:

img

其中,A为随机变量X取值xn(n=1,2,…)的概率,它满足下列两个条件:

(1)pn≥0(n=1,2,…)。

(2)∑pn=1。

对于连续型随机变量来说,由于它的所有可能取值完全充满某一区间,要编出一个表格把所有变量的可能取值都列出来是办不到的。另外,连续型随机变量与离散型随机变量还有一个重要的区别,就是离散型随机变量可以有取得个别值的概率,而连续型随机变量取得任何个别值的概率为零,因此,无法研究个别值的概率而只能研究某个区间的概率。例如,圆周长1m的轮子,在平板上滚动若将轮周分成许多等份,恰巧停在0.7~0.8m之间的概率为1/10,停在0.70~0.71m之间的概率为而1/100,但恰巧停在某一点,在0.07m处的概率则趋近于零(1/∞→0)。

设有连续型的随机变量X,取值为x,因X=x的概率为零,所以在分析概率分布时,一般不用事件X=x的概率,而是用事件X≥x的概率,此概率用P(X≥x)来表示。当然,同样可以研究概率P(X<x)。但是,二者是可以相互转换的,只需研究一种就够了。水文学上习惯研究前者,而数学上则习惯研究后者。本书遵从水文学的习惯。显然,事件X≥x的概率P(X≥x)是随机变量取值x而变化的,所以P(X≥x)是x的函数,这个函数称为随机变量x的分布函数,记为F(x),即

F(x)=P(X≥x)

它代表随机变量X大于等于某一取值x的概率。其几何图形如图3-1(b)所示,图中纵坐标表示变量x,横坐标表示概率分布函数值F(x),在数学上称此为分布曲线,而在水文学上通常称为随机变量的累积频率曲线,简称频率曲线。

在图3-1(b)中,当x=xp时,由分布曲线上查得F(x)=P(X≥xp)=P,这说明随机变量大于x的可能性是P%。

分布函数导数的负值我们称为密度函数,记为f(x),即

img

密度函数的几何曲线称密度曲线。水文中习惯以纵坐标表示变量x,横坐标表示概率密度值f(x),如图3-1(a)所示。

实际上,分布函数与密度函数是微分与积分的关系。因此,如果已知f(x),便可通过积分求出F(x),即

img

其对应关系如图3-1所示。

img

图3-1 随机变量的概率密度函数和概率分布函数

(a)概率密度函数;(b)概率分布函数

三、随机变量的统计参数

从统计数学的观点来看,随机变量的概率分布曲线或分布函数,比较完整地描述了随机现象,然而在许多实际问题中,随机变量的分布函数不易确定,另外在很多实际问题中,有时不一定都需要用完整的形式来说明随机变量,而只要知道个别代表性的数值,能说明随机变量的主要特征就够了。例如,某地的年降水量是一个随机变量,各年不同,有一定的概率分布曲线,但有时只要了解该地年降水量的概括情况,那么,其多年平均降水量就是反映该地年降水量多寡的一个重要数量指标。这种能说明随机变量的统计规律的某些数字特征,称为随机变量的统计参数。

水文现象的统计参数能反映其基本的统计规律。而且用这些简明的数字来概括水文现象的基本特性,既具体又明确,便于对水文统计特性进行地区综合。这对计算成果的合理性分析以及解决缺乏资料地区中小河流的水文计算问题具有重要的实际意义。

统计参数有总体统计参数与样本统计参数之分。所谓总体是某随机变量所有取值的全体,样本则是从总体中任意抽取的一部分,而样本中所包括的项数则称为样本容量。水文现象的总体通常是无限的,它是指自古迄今以至未来长远岁月所有的水文系列。显然,水文随机变量的总体是不知道的,这就需要在总体不知道的情况下。靠有限的样本观测资料去估计总体统计参数或总体的分布规律,而这种估计的一个重要途径就是由样本统计参数来估计总体的统计参数。因此,有必要讲述水文随机变量的总体与样本统计参数。由于在水文分析计算中只知道样本。所以下面我们只讨论样本统计参数的计算。水文计算中常用的样本统计参数如下。

(一)均值

设某水文变量的观测系列(样本)为x1,x2,…,xn,则其均值为

img

均值表示系列的平均情况,它可以说明这一系列总水平的高低。例如,甲河多年平均流量img=2460m3/s,乙河多年平均流量img=20.1m3/s,则说明甲河流域的水资源比乙河流域丰富。所以均值不但是频率曲线方程中的一个重要参数(见下节),而且还是水文现象的一个重要特征值。上式两边同除以img,则得

img

式中:xi/img为模比系数,常用Ki表示,由此可得

img

上式说明,当我们把变量x的系列用其相对值即用模比系数K的系列表示时,则其均值等于1。这是水文统计中的一个重要特征,即对于以模比系数K所表示的随机变量,在其频率曲线的方程中,可以减少均值img 这样一个参数。

(二)均方差

从以上分析可知,均值只能反映系列中各变量的平均情况,但并不能反映系列中各变量值集中或离散的程度。例如有两个系列:

第一系列5,10,15。

第二系列1,10,19。

这两个系列的均值相同,都等于10,但其离散程度显然是很不相同的,直观地看,第一系列只变化于5~15之间,而第二系列的变化范围则增大到1~19之间。

研究离散程度,是以均值为中心来考查的,因此离散特征参数可用相对于分布中心的离差(差距)来计算。设以平均数img代表分布中心,由分布中心计量随机变量的离差为(x-img)。因为随机变量的取值有些是大于img的,有些是小于img的,故离差有正有负,其平均值为零,以离差本身的平均值来说明系列的离散程度是无效的。为了使离差的正值和负值不致相互抵消,一般取(x-img)的平方的平均值,然后开方作为离散程度的计量标准,并称为均方差,即

img

均方差永远取正号,它的单位与x相同。不难看出,如果各变量取值xi距离img较远,则σ大,即此变量分布较分散;如果xiimg较近,则σ小,变量分布比较集中。

按公式(3-7)计算出上述两个系列的均方差为

img

显然,第一系列的离散程度小,第二系列的离散程度大。

(三)变差系数

均方差虽然能很好地说明一个系列的离散程度,但对于两系列,如果它们的均值不同,用均方差来比较这两个系列的离散程度就不合适了。例如有两个系列:

第一系列5,10,15;img=10。

第二系列995,1000,1005;img=1000。

按公式(3-7)计算它们的均方差σ都等于4.08,说明这两个系列的绝对离散程度是相同的,但因其均值一个是10,另一个是1000。其离散情况的实际严重性却是很不相同的。第一系列中的最大值和最小值与均值之差都是5。这相当于均值的5/10=1/2;而第二系列中最大值和最小值与均值之差虽然也都是5,但只相当于均值的5/1000=1/200,在近似计算中,这种差别甚至可以忽略不计。

为了克服以均方差衡量系列离散程度的这种缺点,数理统计中用均方差与均值之比作为衡量系列相对离散程度的一个参数,称为变差系数(Cv),又称离差系数或离势系数。变差系数为一无因次的数,用小数表示。其计算式如下:

img

从上式可以看出,变差系数Cv可以理解为变量x换算成模比系数K以后的均方差。

在上述两系列中,第一系列的Cv1=4.08/10=0.408,第二系列的Cv2=4.08/1000=0.00408,这就说明第一系列的变化程度远比第二系列为大。

对水文现象来说。Cv的大小反映了河川径流在多年中的变化情况。例如,由于南方河流水量充沛,丰水年和枯水年的年径流量相对来说变化较小,所以南方河流的Cv比北方河流一般要小。又如,大河的径流可以来自流域内几个不同的气候区。可以起到互相调节的作用,所以大流域年径流的Cv一般比小流域的小。

(四)偏态系数

变差系数只能反映系列的离散程度,它不能反映系列在均值两边的对称程度。在水文统计中主要采用偏态系数Cs作为衡量系列不对称(偏态)程度的参数,其计算式如下:

img

上式右端的分子、分母同除以img,则得

img

偏态系数Cs,也为一无因次数。当系列关于img对称时,Cs=0,此时随机变量大于均值与小于均值的出现机会相等,亦即均值所对应的频率为50%。当系列关于img不对称时,Cs≠0,其中,若正离差的立方占优时,Cs>0,称正偏;若负离差的立方占优时,Cs<0,称负偏。正偏情况下,随机变量大于均值比小于均值出现的机会小。亦即均值所对应的频率小于50%;负偏情况下则刚好相反。

例如,有一个系列:300,200,185,165,150,其均值img=200,均方差σ=52.8,按式(3-10)计算得Cs=1.59>0,属正偏情况。从该系列可以看出,大于均值的只有1项,小于均值的则有3项,但Cs却大于0,为什么大于均值的项数少,小于均值的项数多。反而会使Cs>0呢?这是因为大于均值的项数虽少,但却比均值大得多,即(xiimg)很大,三次方后就更大;而小于均值的各项的(xiimg)的绝对值都比较小,三次方后所起的作用不大。

有关上述概念如从总体分布的密度曲线来看,就会显得更加清楚。如图3-2所示,曲线下的面积以均值img为界,对Cs=0,左边等于右边;对Cs>0,左边大于右边;对Cs<0。左边则小于右边。

img

图3-2 Cs对密度曲线的影响

Cs=0的曲线在统计学中称为正态曲线或正态分布。自然界中的许多随机变量,如水文测量误差、抽样误差等,都服从或近似服从正态分布,这就是正态分布在概率统计中讨论得最多的原因。正态分布具有如下的密度函数:

img
img

图3-3 正态分布密度曲线

式(3-11)只包含两个参数即均值img和均方差σ。因此,若某个随机变量服从正态分布,只要求出它的img和σ,则其分布便完全确定了。

正态分布的密度曲线(见图3-3)有下面几个特点:

(1)单峰。

(2)关于均值img对称,即Cs=0。

(3)曲线两端趋于±∞,并以x轴为渐近线。

可以证明正态分布曲线在img±σ处出现拐点,并且

img

正态分布的密度曲线与x轴所围成的全部面积显然等于1。这就是说img±σ区间所对应的面积占全面积的68.3%,img±3σ区间所对应的面积占全面积的99.7%。正态分布的这种特性,在后面误差估算时将会应用到。

img

图3-4 频率格纸横坐标的分划

正态频率曲线在普通格纸上是一条规则的S形曲线,它在P=50%前后的曲线方向虽然相反,但形状完全一样。水文计算中常用的一种“频率格纸”其横坐标的分划就是按把标准正态频率曲线拉成一条直线的原理计算出来的。这种频率格纸的纵坐标仍是普通分格,但横坐标的分格是不相等的,中间分格较密,越往两端分格越稀,其间距关于P=50%是对称的。现以横坐标轴的一半(0~50%)为例,说明频率格纸间距的确定。通过积分或查有关表格,可在普通格纸上绘出标准正态频率曲线(见图3-4中①线)。由①线知,P=50%时,x=0;P=0.01%时,x=3.72。根据前述概念,在普通格纸上通过(50%,0)和(0.01%,3.72)两点的直线即为频率格纸上对应的标准正态频率曲线(见图中②线)。由①线和②线即可确定频率格纸上横坐标的分格。为醒目起见,我们将它画在O′P′线上。例如,在普通分格(OP轴)的P=1%处引垂线交S形曲线(①线)于A点,作水平线交直线(②线)于B点,再引垂线交O′P′轴于C点。C点即为频率格纸上P=1%的位置。同理可确定频率格纸上其他横坐标分格(P=5%,10%,20%,…)的位置。

不难证明,在频率格纸上,非标准正态频率曲线也为一条直线,其斜率随σ而变化。

把频率曲线画在普通方格纸上,因频率曲线的两端特别陡峭,又因图幅的限制,对于特小频率或特大频率,尤其是特大频率的点子很难点在图上。现在,有了这种频率格纸,就能较好地解决这个问题,所以在频率计算时,一般都是把频率曲线点绘在频率格纸上。