黃收友,伍自浩
(湖北師范大學 數學與統計學院,湖北 黃石 435002)

其中H是假設空間,L(yi,f(xi))為損失函數,在統計學習理論中,通常選擇平方損失函數,則有
fz是未知真實函數的逼近。經驗目標函數fz的泛化誤差可以表示為
ε(f)=EL(Y,f(X))
同樣選擇平方損失函數,我們可以得到
其中ρ是X×Y上的未知概率分布。fz的泛化能力通常運用過度泛化誤差來刻畫,過度泛化誤差可以表示為
ε(fz)-ε(fφ)
其中fφ是可測函數空間φ上的最小泛化誤差,即
備注1 在溫和條件下,fφ將很好地逼近未知的真實函數,如果假設空間φ足夠大,則過度泛化誤差將任意小,在統計學習理論中,通常選用連續空間的緊子集。
顯然,僅有過度泛化誤差不足以刻畫問題,我們不妨假設可加線性模型[1]如下
Y=f*(X)+ε
其中ε為噪聲,且當滿足E(ε|x)=0時,可加線性模型中的未知真實函數就是條件均值函數,換句話說,f*(X)=E(Y|X).
在統計學習理論框架中,回歸問題已被廣泛研究[2]。在學習過程中,通常需要面對面風險損失,尤其是經驗風險。為了取得更好的學習率,常常為考慮經驗風險最小化[3,4]。而進行經驗風險最小化過程中,又很容易出現過擬合現象,為更好刻畫誤差,通常會結合正則化的方法來處理問題,這也是我們常說的結構風險最小化[5]。
然而,在處理現實問題中,常常遇到異常值點或離異值點,會成為研究中的棘手問題,為此不得不采用穩健估計的方法,目前已經有許多這方面的研究[6~10]。
在本文中,我們定義穩健最小經驗風險函數為
其中σ是正尺度參數,損失函數為
類似的,我們可以得到
ε(f)=EL(y,f(x);y′,f(x′))
其中(x,y)∈,(x′,y′)∈.
在這一部分中,我們將闡述過度泛化誤差與預測誤差間的關系,并證得一個比較定理,有效地刻畫了學習問題中泛化能力與預測能力,以及它們間的上界。
假設1 存在一個常數α>0, 使得下述不等式成立
E|Y|1+α<+∞
(1)
備注2 需要特別指出的是:在統計學習理論框架下,常見的矩估計條件至少是二階或者更高階的,即:E|Y|q<+∞,其中q≥2,本文將該條件弱化到1+α階。接下來,我們將闡述穩健經驗風險最小化的泛化能力與其預測能力之間的關系,也就是本文主要結論。
定理1 設f*∶τ→是條件均值函數f*(X)=E(Y|X),以M為界。假設矩條件(1)成立,若σ>1,對于任何可測量的函數f*∶τ→以及‖f‖∞≤M,則有
(2)
其中,對于任何正數α,θα的取值為
θα=min{α,2}
且常數CH,α為
CH,α=8M[(M+1)E|Y|1+α+12M3]
證明 對于任何σ>1,不失一般性,假設兩個事件ⅠY和ⅡY如下:
ⅠY={y-y′∶|y-y′|≥σ}
以及
ⅡY={y-y′∶|y-y′|<σ}
注意到
從而可得


由于Pr(ⅠY)可以通過運用馬爾可夫不等式求得有界,即
(3)
進而可得
另一方面
(4)
結合Holder不等式和不等式(3),則有
從而可得
(5)
接下來,我們將刻畫第二部分的界,即
為此,我們不妨設
Fσ(s)=Lσ(s)-s2
從而上式可表示為
一方面,運用均值定理,則有
Fσ((y-y′)-(f(x)-f(x′)))-Fσ((y-y′)-(f*(x)-f*(x′)))
另一方面,根據定義可知
進而利用均值定理,可得
從而可得
(6)
結合(4),(5)和(6),我們可得
其中θα=min{2,α}且CH,α=8M[(M+1)E|Y|1+α+12M3]
本文研究了最小風險的誤差估計。不僅將矩估計條件弱化到1+α階,而且刻畫了過度泛化誤差與預測誤差間的關系,運用比較定理闡明了它們間的上界,并為進一步研究學習率提供必要的理論準備。