◎孫含笑
(石家莊鐵路職業技術學院,河北 石家莊 050041)
在實際生活中,對總體參數的研究具有極大的價值,有利于決策者作出正確的統計推斷.參數研究主要包括參數的估計和檢驗,參數估計適用于總體分布已知但參數未知時對參數的研究.參數估計有多種方法,常見的方法有矩估計法、極大似然法、最小二乘法、貝葉斯估計法等.參數估計的研究非常廣泛,并在各個領域展現出了獨有的效用和價值.楊智勇等人研究了參數估計在巖土工程場地勘測中的應用,提出了考慮場地多源勘測數據三維空間相關性的土體參數概率密度函數估計方法,該研究方法為融合多源勘測數據的場地土體參數不確定性量化提供了一種有效分析工具.楊艷艷等人研究了參數估計在機器學習中的應用,提出了基于群啟發式算法的機器學習參數尋優方法,該方法的參數尋優能力和效率都優于主流的網格搜索算法并且具有良好的可拓展性.李瓊芳等人研究了參數估計在暴雨強度預測中的應用,高精度的暴雨強度公式是城市防洪排澇基礎設施建設規劃設計的重要依據.李瓊芳等人提出的基于系統微分響應的暴雨強度公式參數率定方法能夠快速尋找到參數真值,不僅效率高且能夠避免陷入局部最優,對提升暴雨強度公式精度具有重要參考價值.
在實際應用中,對總體參數可能預先有所了解,這時會對總體參數提出假設,通過樣本的信息驗證提出的假設是否成立,這就是參數的假設檢驗.但假設檢驗邏輯性強,初學者很難理解其背后包含的原理以及含義.與此同時,假設檢驗在許多領域都有顯著的價值,何寧輝等人在變壓器故障診斷中引入假設檢驗,該模型的診斷準確性相比于傳統診斷方法有較大提升.石則強等人研究了假設檢驗在汽車排放實驗室比對中的應用研究,該研究方法能夠得到比對結果的真實情況.高宇等人探討了假設檢驗在生物學中的應用,以期為生物學數據的統計分析提供新的思路.喬俊峰考慮了假設檢驗在艦船通信網絡信息安全中的應用,該加密模型相較于傳統的加密模型提高了加密的安全系數.基于此,有效地降低假設檢驗的學習難度具有一定的意義.本文深入地分析參數假設檢驗,加深學習者對假設檢驗的理解,并通過Matlab實現基于參數假設檢驗的質檢算法,用以保證系統和零部件的可靠性以及檢驗試驗在不同的操作過程中是否有本質上的區別.使用該算法進行質檢時,質檢人員只需要輸入樣本數據以及選擇檢驗類型,便可得到最終結果,這不僅降低了質檢人員的使用難度,而且提升了質檢的有效性.
概率性質的反證法
假定對總體的某種假設H0是正確的,那么不支持這一假設的事件A即為小概率事件,在一次試驗中幾乎不可能發生,實際上可認為是不發生的.若在一次抽樣試驗中樣本觀察值導致事件A發生,與小概率不發生矛盾,則拒絕這一原假設;否則就接受原假設.
(1)原假設與備擇假設
統計中常把要檢驗的假設稱為原假設,記為H0,還需要建立一個與H0對立的假設,稱為備擇假設,記為H1.
(2)顯著性水平
α=P{拒絕原假設H0|H0為真}是公認的小概率事件的概率值.
(3)兩類錯誤
在假設檢驗的過程中,對判定原假設是否為真,即作出決策的依據僅僅是一個樣本.由于樣本的隨機性,要進行判斷就不可避免會發生錯誤.
①當原假設H0實際為真時,也有可能是樣本觀察值導致小概率事件發生,而作出拒絕H0的判斷,稱為第一類錯誤,又叫棄真錯誤.犯第一類錯誤的概率是顯著性水平α.
α=P{拒絕原假設H0|H0為真.}
②當原假設H0實際為假時,樣本觀察值未導致小概率事件發生,而作出接受H0的判斷,稱為第二類錯誤,又叫取偽錯誤.其發生的概率為β.
β=P{接受原假設H0|H0為假}.


圖1 兩類錯誤關系圖
只有擴大樣本量n,才能使α與β同時減小.在實際中,樣本量過大不現實.通常情況下,我們會控制犯第一類錯誤的概率,使之不超過α.原因有兩點:
①通常情況下,人們認為犯第一類錯誤的后果更嚴重一些,因為犯第一類錯誤即錯過了事實存在的真相.
②在實際計算中,犯第二類錯誤的概率β計算比較復雜,因此更容易控制犯第一類錯誤的概率.
(4)檢驗統計量
用于檢驗假設的統計量(統計量:不含未知參數的樣本函數)是檢驗統計量.文章只考慮正態總體均值和方差的檢驗,選取標準如下:

(5)拒絕域
拒絕域W1:拒絕原假設H0時,樣本值觀察值(x1,x2,…,xn)所構成的集合.
假設檢驗根據拒絕域的形式分為雙邊檢驗和單邊檢驗,單邊檢驗又分為左邊檢驗和右邊檢驗.劃分標準如下:
①拒絕域在兩邊稱為雙邊檢驗,如圖2所示.備擇假設表現為含有“≠”符號.

圖2 雙邊檢驗拒絕域
②拒絕域在右邊稱為右邊檢驗,如圖3所示.備擇假設表現為含有“>”符號.

圖3 右邊檢驗拒絕域
③拒絕域在左邊稱為左邊檢驗,如圖4所示.備擇假設表現為含有“<”符號.

圖4 左邊檢驗拒絕域
假設檢驗的一般步驟歸納如下:
(1)根據實際情況,建立兩個完全對立的假設;
(2)選擇合適的檢驗統計量;
(3)依照實際情況確定顯著性水平,表述拒絕域形式;
(4)根據樣本信息,對總體參數作出判斷.
若樣本觀察值(檢驗統計量)落入拒絕域W1內,則拒絕原假設H0;若樣本觀察值(檢驗統計量)沒有落入拒絕域W1內,則接受原假設H0.
基于假設檢驗的原理設計一種質檢算法模型,并通過Matlab軟件中相關函數實現該模型.具體思路為:根據實際需求,設定合適的顯著性水平α.本文只考慮正態總體的假設檢驗,首先判斷是單個正態總體還是兩個正態總體的假設檢驗.如果是單個正態總體的假設檢驗,方差檢驗則需選擇χ2檢驗法.對于均值的假設檢驗,則需要進一步判斷方差已知還是方差未知,方差已知時選擇U檢驗法,方差未知時選擇t檢驗法.如果是兩個正態總體的假設檢驗,均值檢驗選擇t檢驗法,方差檢驗選擇F檢驗法.然后,根據實際需求,選擇左邊檢驗、右邊檢驗或雙邊檢驗.該算法模型適用于解決正態總體均值和方差的假設檢驗,具體流程如圖5:

圖5 算法流程圖
例1[工藝改進]為了驗證新的操作方法是否能提高鋼的產率,在保證其他試驗條件一樣的情況下,分別按照標準方法和新方法煉10爐鋼,其產率如下表所示:

產鋼量
設這兩個樣本是相互獨立的正態總體,μ和σ2均未知.按照新的方法能否提高鋼的產率(α=0.05)?
運行程序,輸入必要參數,演示如下:
輸入顯著性水平:
0.05
單個正態總體請輸入[1];兩個正態總體請輸入[2]:
2
對方差檢驗請輸入[F];對均值檢驗請輸入[J]:
J
請輸入樣本值:x=
[78.1,72.4,76.2,74.3,77.4,78.4,76.0,75.5,76.7,77.3]
請輸入樣本值:y=
[79.1,81.0,77.3,79.1,80.0,79.1,79.1,77.3,80.2,82.1]
雙邊檢驗請輸入[0];右邊檢驗請輸入[1];左邊檢驗請輸入[-1]:
-1
運行結果:
在顯著性水平0.05下,可以拒絕原假設H0,即μ1<μ2;
即在顯著性水平0.05下,新的操作方法能提高鋼的產率,其平均產鋼率要高于標準方法.
例2[故障排查]當機器正常工作時,機器切割金屬棒的平均長度x為10.5 cm,從中隨機選取15段進行測量,金屬棒的長度x如下:
10.4 10.6 10.1 10.4 10.5 10.3 10.3 10.2
10.9 10.6 10.8 10.5 10.7 10.2 10.7
已知總體X~N(10.5,0.15),該機器工作是否正常?(α=0.05)
運行程序,輸入必要參數,演示如下:
輸入顯著性水平:
0.05
單個正態總體請輸入[1];兩個正態總體請輸入[2]:
1
對方差檢驗請輸入[F];對均值檢驗請輸入[J]:
J
請輸入樣本值:x=[10.4,10.6,10.1,10.4,10.5,10.3,10.3,10.2,10.9,10.6,10.8,10.5,10.7,10.2,10.7]
雙邊檢驗請輸入[0];右邊檢驗請輸入[1];左邊檢驗請輸入[-1]:
0
如果總體方差已知,請輸入[u];如果總體方差未知,請輸入[t]:
u
請輸入已知的均值:
10.5
請輸入正態總體的標準差:
0.15
運行結果:
在顯著性水平0.05下,可以接受原假設H0,即μ=10.5.
本文對假設檢驗作了深入描述和分析,能幫助學習者更好地理解假設檢驗.同時,基于參數假設檢驗的基本原理和統計推斷中的常用方法,通過Matlab編程設計了工程質檢算法模型,方便質檢人員進行質量檢測和故障排查.但本文設計的質檢模型比較單一,只能用于較簡單的正態總體方差和均值的檢驗,如何設計更為有效且精確度高的質檢模型仍需進一步研究.