張國儉
(晉中學院數學學院,山西晉中 030619)
貝葉斯統計是統計學的一個重要的學派,它應用了先驗信息、樣本信息、總體信息3種信息。而經典統計只應用了樣本信息和總體信息,所以,只要先驗分布選取合理,會得到比經典統計學更精確的結果[1-3]。
貝葉斯判別分析是貝葉斯統計在判別分析中的應用[4],在總體是正態分布的情況下,它的判別函數可以看成馬氏距離判別函數的推廣,特別是協方差矩陣相等的情況下。
貝葉斯判別雖然可以由后驗概率來看樣品判別的優劣,但對于兩個總體的后驗概率相等或很接近的情況,判別便沒有了實際意義。對協方差矩陣相等的正態總體,在誤判損失相等情況下的貝葉斯判別進行了研究,提出了待判域的概念,用以鑒別誤判損失沒有統計學意義的樣品;提出了判別系數的概念,用以對樣品判別的優劣進行評價。
定理1設G1和G2是兩個不同的p維正態總體,先驗分布分別為p1和p2,均值向量分別為μ1和μ2,協方差矩陣相等且都為Σ,x0為一樣品值,記c(i|j),i,j=1,2表示把屬于Gj的樣品誤判為Gi造成的損失,當則判別準則為:


定理2設G1,G2,…,Gk是k個不同的p維正態總體,其先驗分布為p1,p2,…,pk,均值向量分別為μ1,μ2,…,μk,協方差矩陣相等且都為Σ,x0為一樣品值,記c(i|j),i,j=1,2,…,k表示把屬于Gj的樣品誤判為Gi造成的損失,當則判別準則為

定理3設G1,G2,…,Gk是k個不同的p維正態總體,其先驗分布分別為p1,p2,…,pk,協方差矩陣相等,且都為Σ,
則后驗概率為:

對于x是p維隨機向量,有如下的結論:
定理4設x~Np(μ,Σ),又Y=ATx+b,其中b為p維常向量,AT是l×p矩陣,rank(AT)=l,則Y~Nl(ATμ+b,ATΣA)[1]。
設x1,x2,…,xk是屬于k個不同的p維正態總體的隨機向量且相互獨立,記ci=P(Gi|x),i=1,2,…,k,則任一待判樣品是合理的。
定理5設xi~N(μi,Σ),x=,i=1,2,…,k,ci為已知常數,則

證明顯然隨機變量x服從正態分布,求x的數學期望與方差:

因為x1,x2,…,xk相互獨立,所以

其中I為p×p單位矩陣,
證畢。
定理6記,x~N(μ,c2Σ),則
證明x是來自p維正態總體的任一樣品,由定理4知,隨機變量Wi(x)服從正態分布。求Wi(x)的數學期望與方差:

證畢。
定理7若x~N(μ,c2Σ),記Wij(x)=Wi(x)-Wj(x),i,j=1,2,…,k且i≠j,則

證明設
由x~N(μ,c2Σ) 及定理4知,W(x) 服從正態分布。

證畢。
貝葉斯判別可以用誤判概率或誤判損失來刻畫判別的優劣,但這只是對判別標準的評價,對樣品可以用后驗概率來進行評價。但如果樣品屬于兩個總體的后驗概率相等時,就無法對其進行判別,即使把其歸為其中的一類,其判別的實際意義也不大。同理,如果樣品屬于兩個總體的后驗概率雖然不等,但很接近,其實際意義也不大。故有必要對其進行顯著性檢驗。
對樣品的判別函數的差異進行顯著性檢驗。提出了待判域的概念,用以對數據指標沒有明顯所屬的樣品進行鑒別;提出了判別系數的概念,用以對樣品的判別優劣進行評價。
對一個固定的樣品來說,不同的觀測有不同的觀測向量,故可以把它看作一個隨機向量。設樣品x=(x1,x2,…,xp)T是p維空間中的一個隨機向量,由1的討論知,x~N(μ,c2Σ) 而具體的數據向量x0=(x10,x20,…,xp0)T看成x的一個觀測向量,對判別函數的差異做顯著性假設檢驗。
設G1和G2是兩個不同的p維正態總體,其先驗分布為p1和p2,其均值向量分別為μ1和μ2,協方差矩陣相等且都為Σ。當由定理1知,可以確定判別函數Wi(x),i=1,2。
不妨設W1(x0)>W2(x0),對E(W1(x))>E(W2(x))做顯著性檢驗:
提出假設

等價于(a1-a2)Tμ+(b1-b2)>0。
記d=(a1-a2)Tμ+(b1-b2),
則假設等價為

由定理7知

故取檢驗統計量為

拒絕域{u≥u1-α}[5],其中u1-α為標準正態分布的下側1-α分位數。
{u≥u1-α}等價于W12(x)≥
定義1把上面的保留域{u 由定義1知道,如果x0落入待判域,說明判樣品x0到兩個總體的損失的差沒有統計學意義。可以把x0作為待觀察的對象。 檢驗的p值為:p=1-Φ(u0),其中u0是由x0算出的u值。 由p值的意思可知,p值越小,越拒絕原假設,判別越好。 定義2把R=1-p=Φ(u0)稱為樣品x0的判別系數。 由定義2知道,0 設G1,G2,…,Gk是k個不同的p維正態總體,其先驗分布分別為p1,p2,…,pk,均值向量分別為μ1,μ2,…,μk,協方差矩陣相等且都為Σ,當時,由定理2知,判別準則為 在這種情形下,對算出來的Wi(x0),i=1,2,…,k,進行從大到小排序,只取前兩個,分別記為W(1)(x0),W(2)(x0),不妨設W(1)(x0)>W(2)(x0)。 類似兩個正態總體,對E(W(1)(x))>E(W(2)(x))做顯著性檢驗。 假設為 由定理5知 拒絕域{u′≥u1-α}。 若{u′ 否則,W(1)(x0)>W(2)(x0)判x0屬于不同總體的損失有統計學意義。就可以說,x0到(1)這個總體的損失最小。判x屬于總體(1)。 判別系數為:R=,其中,是由x0算出的u′值。 (1)只研究了協方差陣相等的正態總體的情形,并且誤判損失相等的情形,其他情形沒有研究; (2)對樣品的評價除了待判域和判別系數外還應該考慮判別函數整體的評價,最好做個綜合指標; (3)沒有做實證研究,還需要做實證以檢驗判別的誤判率的改進程度。2.2 k 個不同的p 維正態總體的情形




3 不足及需要改進的地方