黃收友,范凱旋,黃冠利
(1.湖北師范大學 數學與統計學院,湖北 黃石 435002;2.北京電子科技職業學院 基礎學院數學部,北京 100176)
在過去的幾十年里, 人工智能得到了快速發展, 已經成為許多國家大力發展的方向。伴隨著人工智能的飛速發展,數據也呈指數級增長。而面對這樣的大數據,經典的方法或者數據庫在獲取和存儲數據等方面變得捉襟見肘,發展行之有效的方法已成必然。另外,大數據又很容易被異常值污染, 或者含有重尾分布的變量等等,這些使得許多傳統的方法都不適用。 例如:受異常值或非高斯分布的噪聲影響, 經典的最小二乘法[1,2]很容易產生較大偏差。
自從 Huber[3]提出穩健估計以來,已經有許多這方面的工作。文獻[4]介紹了參數模型的穩健估計理論,并將其應用到實際中。Sun[5]等人近期提出了自適應 Huber 回歸估計。在弱矩條件下,他們建立了回歸參數的相位平移的穩健估計,并通過仿真證明了該方法的有效性。需要特別指出的是:在弱矩條件下,文獻[6]考慮了誤差熵最小化算法的點對學習問題。不僅論證了算法的相合性,而且證得最優收斂率。此外,Huang[7]等人研究了基于Huber損失函數的穩健學習問題。
盡管關于指數損失函數的文獻已有一些,例如:Middleton[8,9]將指數損失函數應用到通信理論中。基于指數損失函數, Deutsch[10]研究了在非高斯噪聲情況下的通信理論,但目前尚未發現有人研究在弱矩條件1+α階下的穩健學習問題,為此本文將進行這方面的研究。
在統計學習理論框架下,通常假設隨機變量X取值于輸入空間Θ,隨機變量Y取值于輸出空間
假設1 (弱矩條件) 存在一個常數α>0,使得

本文將基于加性噪聲模型
Y=f*(X)+ξ

假設2 不失一般性,令M=max{‖f*‖∞,supf∈H‖f‖∞,1}<∞對任意f∈H以及目標函數f*,則有

(1)
其中H為假設空間,在統計學習理論中通常選取再生核希爾伯特空間。假設2表明f以及目標函數f*是有界的,這是由于在統計機器學習中,通常采用小樣本學習。該假設條件也是統計學習理論中經典假設條件。我們的目的在于:通過樣本去學習一個定義在假設空間H上的函數,使其能很好地逼近回歸函數f*(X).這個函數就是經驗目標函數,即
其中L(yi-f(xi))為經驗損失函數。εz(f)為經驗誤差,其相應的泛化誤差為
ε(f)=EL(Y-f(X))
在經典的回歸分析中,我們常常利用最小平方誤差來刻畫,此時的經驗目標函數
眾所周知,對于高斯噪聲,fz是最優的。然而在現實問題中,樣本點易受離異值或者重尾噪聲干擾,經典的最小二乘回歸容易產生較大偏差,因此本文選用一個更穩健的方法來代替經典的最小二乘法,我們定義穩健的經驗風險最小函數
其中σ是調節參數且大于零,指數損失函數為
其中K>0.取K=2σ2,當σ充分大時,利用泰勒公式展開可知,
Lσ(y-f(x))≈L(y-f(x))
進而可知,其相應的穩健泛化誤差為
εσ(f)=ELσ(Y-F(X)).
引理1 若f(x)是定義在Θ上的有界函數,f*(x)是回歸函數,則有
證 一方面,由平方差公式可得
(y-f(x))2-(y-f*(x))2=2y(f*(x)-f(x))+(f(x))2-(f*(x))2
另一方面,由回歸函數的定義可知
=2(f*(x))2-2f(x)f*(x)
進而可得
從而證得引理1.
本節首先闡述了主要結論,即關于指數損失函數的比較定理,得到過度泛化誤差的穩健估計。進而利用馬爾可夫不等式、赫爾德[12]不等式及相關性質,證明了過度泛化誤差與預測誤差間的關系。
定理1 若σ>1,假設1和假設2成立,對任意定義在Θ上的可測函數f(x)及回歸函數f*(x),則有
其中φα=min{α,1}.C與K,M,α的取值有關,且


以及

從而可得
=∶Q1+Q2

一方面,由馬爾可夫不等式可知

(2)


(3)
由赫德不等式及 (2) 可得

(4)
結合 (4),(2)及 (1),進而可得

(5)
聯立 (3) 和 (5),從而可得
Q1≤Q11+Q12

(6)
接下來我們將估計Q2,為方便起見,不妨設Fσ(t)=Lσ(t)-t2,由均值定理可知
其中ζ取值于y-f(x)和y-f*(x)之間



(7)
結合 (6) 和 (7) 可得
≤Cσ-φα
其中φα=min{α,1}.C與K,M,α的取值有關,且
從而得證定理1.
注2 該定理表明了過度泛化誤差與預測誤差間的關系,也就是說它們間的差值上界為O(σ-φα).顯然易知σ的取值與樣本的大小n相關,即當n越大時,過度泛化誤差與預測誤差間的差值越小。
在統計學習理論框架下,基于非凸指數損失函數,本文闡明了統計學習過程中過度泛化誤差與預測誤差之間的關系。此外,研究表明算法的穩健性參數與樣本大小、維數和矩條件密切相關。這為進一步研究經驗風險的學習問題提供必要的理論支撐,后續我們將繼續考慮在正則化條件或者更復雜的函數空間下的算法設計、穩健學習等問題。