王 慧 吳 丹 夏俊榮
(南京信息工程大學(xué) 大氣科學(xué)學(xué)院/氣象災(zāi)害教育部重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210044)
正態(tài)分布又名高斯分布,是一種非常重要的概率分布,其在統(tǒng)計(jì)學(xué)的許多方面有著重大的影響力。資料的正態(tài)分布檢驗(yàn)和正態(tài)化轉(zhuǎn)換方法是大學(xué)本科課程“氣象統(tǒng)計(jì)方法”中的一部分內(nèi)容。該課程是在概率統(tǒng)計(jì)、線性代數(shù)的基礎(chǔ)上,學(xué)習(xí)利用統(tǒng)計(jì)學(xué)方法對(duì)氣象要素的特征及成因進(jìn)行診斷和分析或?qū)庀蟋F(xiàn)象進(jìn)行預(yù)報(bào)的方法。它是大氣科學(xué)專(zhuān)業(yè)的一門(mén)專(zhuān)業(yè)主干課。通過(guò)該課程的教學(xué),使學(xué)生能夠掌握對(duì)天氣、氣候現(xiàn)象進(jìn)行診斷分析及預(yù)報(bào)的常用統(tǒng)計(jì)學(xué)方法的基本原理和技術(shù),培養(yǎng)學(xué)生運(yùn)用所學(xué)的方法與技能從事科學(xué)研究的能力,為將來(lái)從事實(shí)際氣象業(yè)務(wù)預(yù)報(bào)及科學(xué)研究工作打下基礎(chǔ)。本文針對(duì)該課程教學(xué)中對(duì)資料正態(tài)分布檢驗(yàn)問(wèn)題重視不夠,導(dǎo)致學(xué)生在科研工作中往往出錯(cuò)等問(wèn)題,提出自己的看法,希望引起大家的重視,使學(xué)生更好地理解和利用統(tǒng)計(jì)學(xué)方法解決氣象中的一些科學(xué)問(wèn)題,這對(duì)學(xué)生將來(lái)的工作有很大的幫助。
目前,在“氣象統(tǒng)計(jì)方法”課程中對(duì)資料的正態(tài)分布檢驗(yàn)這部分,很多教師只是簡(jiǎn)單講授資料正態(tài)分布的統(tǒng)計(jì)量和正態(tài)化方法等,多數(shù)是抽象地介紹課本上的相關(guān)公式,關(guān)注的是學(xué)生能否記住統(tǒng)計(jì)量的名稱、意義和應(yīng)用條件。因而大部分學(xué)生為了應(yīng)付考試,都是死記硬背定義和公式,考試也最多考到正態(tài)分布統(tǒng)計(jì)量的名稱,等考試完了也都全忘記了,根本不能引起學(xué)生的注意。所以,如果教師對(duì)這部分內(nèi)容不進(jìn)行強(qiáng)調(diào)和詳細(xì)講解,很多學(xué)生并不能很好地理解和認(rèn)識(shí)其重要性,這可能導(dǎo)致他們?cè)谝院蟮目蒲泻皖A(yù)報(bào)工作中犯一些低級(jí)錯(cuò)誤,研究結(jié)果有誤自己都不能發(fā)現(xiàn)。在碩士甚至博士研究生答辯中都有類(lèi)似事情發(fā)生。
對(duì)于資料的正態(tài)分布檢驗(yàn)這部分內(nèi)容沒(méi)有固定的學(xué)時(shí)安排,授課時(shí)間因教師而異,有些教師可能自己也不重視,快速、簡(jiǎn)單地講授一下,不超過(guò)一個(gè)學(xué)時(shí)就講完了。這部分內(nèi)容筆者一般安排2個(gè)學(xué)時(shí)的課程講授。資料正態(tài)分布檢驗(yàn)的重要性大概占0.5個(gè)學(xué)時(shí)。
首先,對(duì)正態(tài)分布進(jìn)行簡(jiǎn)單介紹,展示正態(tài)分布曲線圖形。若隨機(jī)變量X服從一個(gè)數(shù)學(xué)期望為μ、方差為σ2的高斯分布,記為N(μ,σ2)。其概率密度函數(shù)為正態(tài)分布的期望值μ決定了其位置,其標(biāo)準(zhǔn)差σ決定了其分布的幅度。因其曲線呈鐘形,因此人們又經(jīng)常稱之為鐘形曲線。我們通常所說(shuō)的標(biāo)準(zhǔn)正態(tài)分布是μ=0,σ=1的正態(tài)分布。正態(tài)曲線與橫軸間的總面積等于1。正態(tài)曲線下橫軸上一定區(qū)間的面積反映資料的取值分布在該區(qū)間的個(gè)數(shù)占總觀測(cè)次數(shù)的百分比,或變量值落在該區(qū)間的概率。橫軸(μ-σ,μ+σ)區(qū)間內(nèi)的面積為68.3%,(μ-1.96σ,μ+1.96σ)區(qū)間內(nèi)的面積為95.4%,(μ-2.58σ,μ+2.58σ)區(qū)間內(nèi)的面積為99.7%。這也是我們通常說(shuō)氣候異常超過(guò)±1.96σ和±2.58σ的概率不超過(guò)0.05和0.01的原因。
接著,重點(diǎn)介紹氣象統(tǒng)計(jì)分析中氣候資料正態(tài)分布檢驗(yàn)的必要性和重要性。資料符合正態(tài)分布是各類(lèi)統(tǒng)計(jì)預(yù)報(bào)模型和統(tǒng)計(jì)檢驗(yàn)方法的先決條件,大多數(shù)氣候診斷方法和預(yù)報(bào)模型是在氣候變量呈正態(tài)分布假定前提下進(jìn)行的[1-3]。變量是否遵從正態(tài)分布,直接影響氣象統(tǒng)計(jì)分析結(jié)果和預(yù)測(cè)模型的應(yīng)用效果。因此,對(duì)于氣候變量是否為正態(tài)分布的檢驗(yàn),不僅很有必要而且很重要。研究表明,年、月平均氣溫、氣壓、多雨地區(qū)的月降水量通常符合正態(tài)分布[4],旬平均氣溫基本符合正態(tài)分布?,F(xiàn)實(shí)生活中,非正態(tài)變量在氣候要素中占有重要地位,如候、旬降水量,降水稀少地區(qū)的月降水量[4],各種天氣(如降水、積雪、冰雹、大風(fēng)和高溫等)日數(shù)和旱澇指數(shù)等。近年來(lái),在全球氣候變暖背景下,極端氣候異常頻繁地光顧地球,嚴(yán)重影響著世界各國(guó)的經(jīng)濟(jì)社會(huì)發(fā)展和人民生活,所以對(duì)極端氣候事件的研究成了大家關(guān)注的焦點(diǎn)。由于大多的天氣、氣候極端事件往往出現(xiàn)于非正態(tài)時(shí)間序列中,所以在研究這些氣候要素的時(shí)空特征和演變規(guī)律時(shí),若應(yīng)用基于正態(tài)分布條件下的各種統(tǒng)計(jì)方法,由于其分布的非正態(tài)性,可能會(huì)導(dǎo)致研究和預(yù)報(bào)的失敗。長(zhǎng)期以來(lái),我們對(duì)月、季、年降水量預(yù)報(bào)準(zhǔn)確率不高,這可能是原因之一[4]。這里建議舉一些現(xiàn)實(shí)生活和科研工作中的例證加以說(shuō)明,使學(xué)生更容易理解且記憶深刻。比如筆者會(huì)拿平均值舉例,某同學(xué)到一個(gè)公司找工作,公司負(fù)責(zé)人告訴他,該公司的月平均工資是5 000元,該同學(xué)一聽(tīng)很高興,但到公司上班后發(fā)現(xiàn)每月只拿到2 000多元,這是為什么?其實(shí)該公司一共25人,有普通員工18人,月工資是2 000多,有主管5人,月工資是10 000多,還有2個(gè)部門(mén)經(jīng)理,月工資是20 000多,這樣該公司的平均工資就是5 000多。統(tǒng)計(jì)學(xué)上,平均值的物理含義是描述某一數(shù)據(jù)序列平均水平的量,這是基于數(shù)據(jù)序列呈正態(tài)分布的前提下。但是因?yàn)樵摴镜墓べY不呈正態(tài)分布,所以這時(shí)的平均工資根本代表不了該公司工資的平均水平。該同學(xué)不了解這一點(diǎn)自然吃虧上當(dāng)。再比如某一同學(xué)研究東亞夏季風(fēng)的爆發(fā)時(shí)間及其環(huán)流特征,研究發(fā)現(xiàn)東亞夏季風(fēng)爆發(fā)時(shí)間集中在兩個(gè)階段,一個(gè)在4月中上旬,一個(gè)在5月中下旬,這時(shí)他將兩個(gè)時(shí)段平均了一下,得到東亞夏季風(fēng)平均在5月初爆發(fā),然后從5月初的大氣環(huán)流背景場(chǎng)上找東亞夏季風(fēng)爆發(fā)的成因,怎么也找不到合適的解釋。這是必然的結(jié)果,因?yàn)?月初恰恰正是東亞夏季風(fēng)不爆發(fā)的時(shí)間或東亞夏季風(fēng)比較弱的階段。這位同學(xué)忽視了他所分析資料的非正態(tài)分布問(wèn)題,隨意地取平均值從而導(dǎo)致了研究的失敗。
在利用氣象統(tǒng)計(jì)方法進(jìn)行氣象科研和預(yù)報(bào)工作中,資料是否符合正態(tài)分布問(wèn)題非常重要,這一點(diǎn)值得注意。教師在教學(xué)中應(yīng)對(duì)此進(jìn)行強(qiáng)調(diào)和詳細(xì)講解,使學(xué)生能夠更好地理解和認(rèn)識(shí)其重要性。對(duì)于一些非正態(tài)分布?xì)夂蛞?如候、旬降水量,降水日數(shù),積雪日數(shù),風(fēng)速,旱澇指數(shù)和極端氣候事件等),我們必須首先進(jìn)行資料正態(tài)化數(shù)學(xué)變換(如對(duì)數(shù)變換、立方根變換和雙曲正切轉(zhuǎn)換等)使之變?yōu)檎龖B(tài)分布的序列后再進(jìn)行分析。
參考文獻(xiàn):
[1]魏鳳英.現(xiàn)代氣候統(tǒng)計(jì)診斷與預(yù)測(cè)技術(shù)[M].北京:氣象出版社, 2009.
[2]黃嘉佑.氣象統(tǒng)計(jì)分析與預(yù)報(bào)方法[M].北京:氣象出版社,2000.
[3]施能.氣象統(tǒng)計(jì)預(yù)報(bào)[M].北京:氣象出版社,2009.
[4]曹杰,陶云.中國(guó)的降水量符合正態(tài)分布嗎[J].自然災(zāi)害學(xué)報(bào),2002,11(3):115~120.