來 鵬,孫 鑫,高羽飛,趙英序
(南京信息工程大學 數學與統計學院,南京 210044)
隨著網絡與通信技術的飛速發展,人們常會遇到各種超高維復雜數據問題,如證券市場的交易數據、X射線斷層攝影數據、生物基因表達數據、文檔詞頻數據等。在分析超高維數據問題時,最大的難點是隨著維數的膨脹,分析和處理數據的復雜度、成本以及所需的空間樣本數都將呈指數級增長。傳統的多元統計方法在處理超高維數據問題時會遇到如計算效率無法滿足、計算存儲空間需求變高、傳統統計指標不再適用、方法的假設條件不再滿足等困難,所以構建適用于超高維數據的新統計方法是很有必要的。
特征篩選是目前最常見的處理超高維數據問題的手段之一,一般遵循“兩步走”的篩選過程:第一步在稀疏性假設下對超高維數據進行大規模粗略的變量篩選,將超高維數據降到一個小得多的低維空間中;第二步再用傳統的統計方法進行建模分析。由此可見,初步特征篩選的準確降維直接影響到后續建模。Fan和Lv[1]、Fan等[2]、Fan和Song[3]、Fan等[4]、Liu等[5]在參數或半參數模型下提出了多種特征篩選方法。然而在超高維數據分析過程中,想要找到合適的模型是很困難的,因此,Li等[6]、He等[7]、Mai和Zou[8]提出了無模型下基于多種統計度量指標的特征篩選方法。
在超高維數據分析中,有一類特殊的超高維數據類型,其響應變量和協變量都為分類變量。對于該類問題,Huang等[9]提出了超高維分類數據的特征篩選方法Pearson卡方檢驗算法(PC-SIS),對超高維數據,利用χ2統計量檢驗協變量與響應變量是否具有顯著的相關關系,即對指標進行排序。

盡管PC-SIS方法擁有很多優點,但其不足也顯而易見:Pearson卡方檢驗要求樣本量大于40,樣本量越大,得到的效果越好。然而實際情況中這些條件可能無法確保滿足,為了對其改進,本文提出了似然比統計篩選方法(LR-SIS)。與PC-SIS相比,似然比統計量是反映靈敏度和特異度的復合指標,不僅非常穩定,而且可用于有20%以上的單元格的期望頻數小于5或者最小為1的樣本數據。此外,LR-SIS也是一種無模型算法,通過適當分組變換可應用于連續型變量的分組篩選問題。下文將給出LR-SIS特征篩選過程和漸近理論性質,并通過蒙特卡羅數值模擬和實例分析進行有限樣本研究。
超高維數據中,變量維數p遠大于樣本量n,通常只有少數的協變量與Y有關,滿足稀疏性假設。令Y∈{1,2,…,R} 表 示 具 有R類 的 離 散 分 類 變 量 ,X=(X1,X2,…,Xp)T∈Rp表示p維離散協變量,其中Xi可取值為{1,2,…,K},i=1,…,p。超高維特征篩選關鍵在于通過分析協變量與響應變量之間的邊際相關性,來篩選出可能的重要協變量進行快速降維。為此,令F(y|X)為Y關于X的條件分布函數,定義重要變量集合與不重要變量集合分別為:

其中φy為Y的取值范圍。則變量篩選的目的,就是找到一個估計?使得D??且||盡可能小,其中||表示集合?中的元素個數。
為了改進Huang等[9]所提出PC-SIS方法,本文提出了更穩健的似然比統計量作為特征篩選指標。定義,則似然比統計量可定義為:

若Xj與Y獨立,則P(Y=r|Xj=k)=P(Y=r),那么ln(Pj,rk/Pr)=0,即wj=0。若響應變量Y與協變量Xj不獨立,則存在某些r∈{1,2,…,R}使P(Y=r|Xj=k)≠P(Y=r),即 ln(Pj,rk/Pr)≠0 ,從而wj≠0 。所以|wj|越大說明Xj與Y相關性越強,因此可以利用|wj|的值評估Xj的重要性。
利用隨機樣本{Yi,Xi=(Xi1,Xi2,…,Xip)T},i=1,2,…,n,可求出wj的估計為:

接下來探討所提出特征篩選方法的理論性質。為方便后續的證明,給出以下條件:
(C1)存在兩正數 0<c1<c2<1,使的c1<Pr,Pj,rk<c2,1≤j≤p,1≤r≤R,1≤k≤K。
(C2)存在正數,使得 min∈Dj|wj|≥2cn-τ。
(C3)假設lnp≤na,0<a<1-2τ。
條件(C1)要求每個類別的響應變量和協變量取值的概率都是有界的,因此排除了那些可能具有特定分類概率過大或過小的取值情況。條件(C2)要求所有重要變量的指標最小值有下界,并隨樣本量趨向于無窮大時以n-τ的速度趨向于0,在Fan和Lv[1]的文章中也有相似的假設。條件(C3)允許特征維度p隨樣本量n呈指數級發散,表明了其超高維特性。
定理1(確定篩選性):在條件(C1)至條件(C3)下,對于任意,有:

其中c3-c5為正數,sn為D的基數。
為了研究所提出似然比特征篩選方法LR-SIS的有限樣本性質,本文將利用蒙特卡洛模擬,參考Ni和Fang[10]的例 1 對 LR-SIS 方法與 SIS[1]、PC-SIS[9]、IG[10]、KF[8]等方法進行比較。首先生成Yi∈{1,2,…,K}其中K=2,同時對于任意1≤k≤K,P(Yi=k)=1/k。同時生成二元協變量向量X={X1,X2,…,Xn} ,其中Xi={Xi1,Xi2,…,Xip}T,定義真實的重要變量集為D={1,…,10},|D|=d0。在Yi的條件下,生成Xij滿足P(Xij=1|Yi=k)=θkj,1≤k≤K且j∈D,詳細數值見表1。其次,對于1≤k≤K且j?D,本文定義θkj=0.5。設協變量的維度p=2000,樣本量n=160,240,320。

表1 模擬所用參數規格
為了便于比較,仿照Ni和Fang[10],定義下列結果評估標準:MMS,包含所有重要變量的最小模型尺寸;P,在給定模型尺寸為[n/logn]的情況下是否包含所有重要變量的指標;MS,模型尺寸d,由Ni和Fang[10]中所提出的d值算法所得的篩選變量個數,其中dmin=1,dmax=n;dc表示被正確挑選出的重要變量的數量;di=d-dc表示被挑選出的不重要變量的數量;CZ,在所有p-d0個不重要變量中,沒有被挑選出的不重要變量所占的比例;IZ,在所有d0個重要變量中,沒有被正確篩選出的重要變量所占的比例;CP1,表明所選出的模型包含所有的重要變量的比率;CP2=dcd0,表示所篩選出的重要變量占所有重要變量的比率。
表2記錄了500次模擬中MMS的5%、25%、50%、75%和95%的分位數值以及其他評價指標的平均值。從表2中可以看到當樣本量和維數相同時,LR-SIS方法的效果最好,MMS中每個指標都接近10,說明LR-SIS能夠更有效地篩選出所有重要的協變量;IG方法僅次于LR-SIS,與其他方法相比,其優越性主要體現在篩選重要協變量的錯誤率更低,PC-SIS與SIS效果近似,他們的優勢在于具有較好的MMS指標;KF方法的MMS結果比較差,但其篩選重要協變量的正確率更高。隨著樣本量n的不斷增大,LR-SIS方法在各指標的收斂速度最快,與其他方法相比更加穩定,計算效率較高。因此可見LR-SIS方法具有較顯著的優越性。

表2 模擬結果
在研究文本分類問題的過程當中,特征篩選是最重要的環節之一,能夠降低特征向量空間維數,簡化計算。本文從UCI機器學習庫收集到亞馬遜網站關于電影的大量評論(http://archive.ics.uci.edu/ml/datasets/Sentiment+Labelled+Sentences#)。該評論集中包含正面評論(Y=1)和負面評論(Y=0)(部分評價如表3所示)。則所要研究的問題為利用評論中出現來源于詞庫的關鍵詞X=(X1,…,Xp)T,來預測評論的類別Y,這是一個超高維文本分類問題。

表3 亞馬遜電影評論文本
經過數據整理,利用LR-SIS方法對此評論集進行關鍵詞篩選。表4根據ωj值對影響評價分類的關鍵詞進行了排序。從這些排名靠前的關鍵詞可以看出,評論者主要從電影本身、演員、演技以及音樂等方面對電影進行評價,重點關注這些方面的質量、好壞、趣味性等,來對電影做出正面或負面的評價。

表4 電影評價分類與關鍵詞篩選結果
通過LR-SIS方法進行特征篩選后,利用決策樹模型進行判別分類,對整個數據集270條負面評論、240條正面評論進行判別的分類結果見表5。可以發現總共510條評論,LR-SIS結合決策樹的錯判率為0.126。錯判率比較低,說明LR-SIS方法的篩選效果不錯,利用LR-SIS方法來進行降維和判斷評論的正負性是合理可行的。

表5 LR-SIS方法預測結果


因此有:I1與I2擁有相同的結構,下面只處理

由Hoeffding不等式:

通過積分中值定理,知在Pr與間存在使得。 當時,有,又因為 Pr≥c1,所以,且當時,有。故由Bernstein不等式:

類似Liu等[5]引理4的證明,可得存在正數c3和c4,有:

因此存在正常數滿足:

同理可得:

其中c3-c9都為正數。最終,由式(5)、式(9)、式(10)得到:

其中c10-c12為正數。
下面證明公式(3)。由條件(C2)可得對于某些j∈D,,若 D?,則必存在某些 j∈D 使得<cn-τ,即。所以:

其中sn為D的基數。所以P(D?)→1。
針對傳統統計分析方法在超高維數據特征篩選方面的不足之處,本文在卡方檢驗特征篩選方法(PC-SIS)的基礎上,提出了基于似然比檢驗的特征篩選方法(LR-SIS),LR-SIS具有無模型假設、計算簡便、穩健性高的特點,允許響應變量與協變量之間存在任意回歸關系,避免了篩選初期尋找準確回歸模型的困難。在樣本量較大時,LR-SIS的準確程度與PC-SIS方法相當,而在小樣本情況下效果要優于PC-SIS。從數值模擬以及實例數據的分析結果表明,此方法對于高維數據特征篩選工作是合理有效的。