福建農林大學計算機與信息學院(350002) 林雨婷 莊虹莉 李立婷 溫永仙
根據已有的數據建立模型,是預測目標對象走勢和影響因素的關鍵,建立的模型的好壞直接關系到預測的精度。任何一種單項預測方法,在評估解釋變量對預測目標的影響力的反映上并不能盡善盡美。單項預測模型的選擇容易受到選擇過程中的不確定因素的影響而具有不穩定性,選擇一個預測模型就可能導致遺失其他未被選中的預測模型中的有用信息。為解決上述問題,學者們提出多種解決方法,其中組合預測是最常用的方法之一。組合預測模型是以單項預測模型為基礎,對多個不同的單項預測模型根據不同的方法組合在一起,所以能綜合利用單項預測模型有用信息,減小受單項模型選擇中不確定因素的影響。
1969年,Bates和Granger[1]指出組合預測模型的均方誤差比任何一個被組合的單項模型小,并將其運用于航空客運中,被許多學者認為是組合預測的起步。李勤[2]在文中分析研究線性組合預測和非線性組合預測,指出組合預測方法將越來越豐富。近年來,關于組合預測的方法研究主要有Gao等[3]提出刪組的最優模型平均方法,Zhang等[4]提出的廣義線性模型的最優模型平均方法。組合方法在航空客運量預測、城市流動人口預測、金融股票等方面都得到了廣泛應用。近期有徐敏捷等[5]將組合模型用于網絡輿情數據分析,提高了對輿情的發展勢態的預測效果。目前國內外學者將組合預測模型運用到疾病診斷領域的研究還較少,本文將組合預測模型運用到Arrhythmia數據的分析中。
本文對四種基于logistic回歸懲罰函數的變量選擇方法進行組合并用十折交叉驗證方法計算其精度,比較得到組合模型的優劣性。通過不同類型數據的模擬,得出基于logistic模型的L2-group MCP與group bridge的組合具有優良的分類精度的結論。
1.logistic回歸分析模型
logistic回歸分析模型是一種廣義線性回歸分析模型,其響應變量為二分類變量或某事件發生的概率,常用于疾病診斷、數據挖掘、金融經濟預測及風險預測等,在疾病中主要探索疾病的發生概率和引發疾病的相關因素等。
假設有m個解釋變量X=(x1,x2,…,xm),其響應變量y為二元變量,有n個觀測樣本(yi,xi1,xi2,…,xim),i=1,2,…,n,設pi=P(yi=1|Xi)為給定條件下得到yi=1的概率,同樣地,yi=0的概率為P(yi=0|Xi)=1-pi,令Xi=(xi1,xi2,…,xim),i=1,2,…,n,則X=(X1,X2,…,Xn)T為n×m的觀測樣本矩陣,令其相應觀測值為y=(y1,y2,…,yn)T。
對于普通logistic回歸模型,條件概率可表示為:
(1)
其中β0為常數項系數,βj(j=1,2,…,m)為第i個解釋變量對應的系數,β則為由這m個系數所組成的系數向量β=(β1,β2,…,βm)T,ε~N(0,σ2)。
在logistic回歸分析模型中,通常是通過最大似然法估計參數。logistic回歸模型的似然函數:
ln[1+exp(β0+Xiβ)]}
(2)
2.基于懲罰函數組合預測模型
莊虹莉等[6]研究了L2-group MCP-logistic、SCAD-logistic、group bridge-logistic、composite MCP-logistic等方法。本文在此基礎上應用組變量選擇方法L2-group MCP-logistic(簡寫為gMCP-L)、單變量選擇方法SCAD-logistic(簡寫為SCAD-L)、雙層變量選擇方法group bridge-logistic(簡寫為GB-L)和composite MCP-logistic(簡寫為cMCP-L)進行組合。其中gMCP-L、SCAD-L、GB-L三種懲罰函數的原理見文獻[6],由于文獻[6]未提及cMCP-L,所以我們首先對composite MCP-logistic進行描述。
(1)composite MCP-logistic
由于group bridge在某些點的不可微,給求解計算帶來了極大的困難,因此Brenheny和Huang[7]提出了cMCP(composite MCP的簡稱),cMCP也是雙層變量選擇的另一經典方法,同樣是組內懲罰和組間懲罰的復合函數。假設已知分有J組變量,分別為A1,A2,…,AJ,每組的變量數為m1,m2,…,mJ,則復合函數形式為:

cMCP懲罰方法的定義如下:
(3)


將cMCP加載到logistic模型中,就得到cMCP-logistic。
(4)
cMCP方法在變量選擇與預測精度中具有較好的表現,因此本文將其選入作為單項預測模型之一。
(2)組合預測模型
組合預測模型是將多個不同的預測模型根據不同的方法組合在一起,再對研究目標進行預測,避免了因預測誤差大的模型被淘汰而造成此模型中有用信息的損失,綜合利用單項預測模型的有用信息,提高預測的精度。設有M個單項預測模型fi(x),i=1,2,…,M,其組合預測基本模型可表示為:
(5)

由式(5)可以知道在組合預測模型中,除了單項預測模型的選擇,權重的確定也是其中一個重要的研究問題。按權重系數的計算方法可以分為兩類:最優權重系數法和非最優權重系數法。
最優權重系數法就是將按照某種規則確定的目標函數,通過一定的限定條件使其得到最大值或最小值,從而求得權重系數。不同的目標函數將對應一組不同的權重系數。用數學規劃的方法表示最優權重系數法,如下:
(6)
其中Φ(w1,w2,…,wM)為目標函數。
非最優權重系數法是一種比較直接的、力求簡單的確定權重的方法。主要有算數平均方法、方差倒數法、遞歸等權加權法等。本文未運用非最優權重系數法進行權重系數的選擇,因此在此并不對其展開描述。
本文采用單項預測方法有gMCP-L、SCAD-L、GB-L和cMCP-L。莊虹莉等在對Arrhythmia數據集進行分析研究時指出方法gMCP-L對患病的人的判別能力更為突出,而SCAD-logistic方法和group bridge-logistic方法對正常人的計算精度更高。SCAD-L方法作為典型的雙層變量選擇方法之一,在變量的選擇方面具有很好的效果。因此,本文對方法gMCP-L分別與SCAD-L、GB-L和cMCP-L三個方法組合,并且對cMCP-L與SCAD-L方法進行組合研究。
gMCP-L方法與SCAD-L、cMCP-L和GB-L方法的組合模型:
(7)

cMCP-L方法與SCAD-L方法的組合模型:
(8)

(3)精度計算
本文將模型的預測精度分為三類:



3.權重選擇

(9)
本文根據解釋變量之間不同的數據結構類型通過蒙特卡洛方法產生模擬數據,再通過十折交叉驗證方法產生訓練集和測試集,分別計算出訓練集和測試集的精度。分析比較L2-group MCP-logistic與SCAD-logistic的組合方法(簡寫為gMCP+SCAD-L)、L2-group MCP-logistic與group bridge-logistic的組合方法(簡寫為gMCP+CB-L)、L2-group MCP-logistic與cMCP-logistic的組合方法(簡寫為gMCP+cMCP-L)以及cMCP-logistic和SCAD-logistic的組合方法(簡寫為cMCP+SCAD-L)的優劣。由于變量選擇、參數估計和分類精度的結果受解釋變量的類型、分組情況和樣本量的影響,并且為了比較組合預測模型和單項模型的預測精度,故本文與文獻[6]一樣設置了六組不同的模擬數據。
1.模擬數據[6]
建立logistic模型:

模擬數據1:變量之間存在弱相關關系且內部不存在組結構的數據,取Xi~N(0,1)且變量Xi和Xj之間的相關系數為Rij=0.1|i-j|,設定的300個解釋變量其中有8個顯著變量,其對應的參數為:
β300×1=(-2,1,1,0.5,-1,1,2,3.5,0,0,…,0)T
模擬數據2和模擬數據3則分別是解釋變量之間存在相關關系和強相關關系,本文將解釋變量之間的相關系數中的R0分別取值為0.5和0.8,其他的設置與模擬1保持相同。
模擬數據4:在模擬數據1的基礎上,加入了變量之間的多重共線性關系,即解釋變量存在如下關系:
X1=2X2+4X3+2X4。
模擬數據5:考慮解釋變量之間存在組結構及變量之間的多重共線性關系,且顯著變量組內沒有零系數。與Wei和Huang[9]的相同,將變量分成60組,此時有X=(X1,X2,…,X60),其中Xi=(X5(i-1)+1,…,X5(i-1)+5),1≤i≤60,即每組有5個變量,每組參數的系數為其中設定有10個顯著變量:
β1=(0.5,1,1.5,2,2.5)T,β2=(2,2,2,2,2)T,
β3=…=β60=(0,0,0,0,0)T
模擬數據6:顯著變量的組內存在零系數,數據的產生與模擬數據5 類似,不同的是不同變量之間的具體分組不一樣,模擬數據6將解釋變量分為74組,前四組每組的變量數為5,后70組每組的變量數為4,其中設定15個顯著變量。即
β1=(-3,-2,-1,1,2)T,β2=(-3,-2,-1,1,0)T,β3=β4=(0,0,0,0,0)T,β5=(2,-2,1,1.5)T,β6=(-1.5,1.5,0,0)T,β7=…=β74=(0,0,0,0)T
通過計算機分別模擬這6種不同的數據類型,樣本容量分別取n=1000,500,200,每種樣本容量下重復100次。分別用gMCP+SCAD-L、gMCP+GB-L、gMCP+cMCP-L和cMCP+SCAD-L方法對模擬數據進行變量選擇和參數估計,并且得到訓練集和測試集的分類精度。借助R語言中的glmnet包、ncvreg包和grpreg包實現變量選擇和參數估計,進一步得到訓練集和測試集的分類精度。
2.模擬結果
根據所產生的六類不同的模擬數據,gMCP+SCAD-L、gMCP+GB-L、gMCP+cMCP-L和cMCP+SCAD-L四種方法分析結果見表1和表2。

表1 組合預測模型中解釋變量之間存在各種相關且無組結構模擬的分類精度(模擬1到模擬3的分類精度)
*:表中SCAD-L、gMCP-L、GB-L分類精度數據摘自文獻[6]。“0”表示yi取值為0的樣本的預測精度;“1”表示yi取值為1的樣本的預測精度;“總體”表示樣本的總體預測精度;“訓練集”表示由訓練集計算得到的分類精度;“測試集”表示由測試集得到的分類精度。
由表1可知,與單項預測模型相比,解釋變量之間存在弱相關性時,gMCP+SCAD-L、gMCP+GB-L、gMCP+cMCP-L和cMCP+SCAD-L四個組合方法相同樣本量下的分類精度均比單項預測模型的分類精度高。解釋變量之間存在相關時,組合方法的分類精度在樣本量n=1000,500時均比單項預測的更高。解釋變量之間存在強相關時,組合預測只在樣本量n=1000時,才表現出更高的分類預測精度。由此可見解釋變量之間存在相關和強相關時,樣本量越大,組合預測模型的優勢才會體現出來。從總體上看,組合預測模型的分類精度相比于單項預測模型的分類精度更高。
組合預測模型之間,當解釋變量之間存在不同強度的相關性時,所有方法計算的精度都隨著樣本量的減小而降低,且所有的計算方法對于樣本中y值為1的預測精度均偏小,樣本量相同時,gMCP+GB-L方法相比于其他方法均具有更高的精確度。當解釋變量之間存在強相關性時,gMCP+SCAD-L、gMCP+GB-L、gMCP+cMCP-L和cMCP+SCAD-L四個組合方法的分類預測精度波動幅度均比解釋變量之間存在弱相關和解釋變量之間存在相關時大。其中解釋變量之間存在不同強度的相關性時,gMCP+GB-L方法的分類預測精度波動幅度都為最小。
由表2可知,與單項預測模型相比,當解釋變量存在多重共線性且無組結構時,單項預測模型中測試集的最高總體預測精度為93%,而組合預測模型中測試集的最低總體預測精度為93.2%,總體上看,組合預測模型的分類預測精度相比于單項預測模型有明顯的提高。當解釋變量存在組結構且顯著變量組內沒有零系數時,樣本量n=500時,組合預測才具有明顯的優勢。當解釋變量存在組結構且顯著變量組內沒有零系數時,相同樣本量下組合預測模型的分類預測精度高于單項預測模型的分類預測精度。
組合預測模型之間,相比于前三類模擬數據,當解釋變量存在多重共線性時,所有方法的計算精度都有顯著提高,對y值為1的預測也更為精確。組合預測模型計算精度隨樣本量的減小而提升,其中分類預測精度最高且變化幅度最小的組合預測方法是gMCP+GB-L方法。解釋變量存在組結構且顯著變量組內有零系數時,組合預測模型的分類預測精度隨樣本量的增加而提升,而顯著變量組內沒有零系數的數據集的計算精度則在樣本量n=500時為最高。其中gMCP+GB-L方法在解釋變量存在組結構且顯著變量組內有零系數和沒有零系數時,都具有最高的分類預測精度和最小的波動幅度。
綜上所述,組合預測模型總體上比單項預測模型有更優的表現。在解釋變量存在的相關性越強時,樣本量越大,組合預測模型的優勢才更為凸顯出來。解釋變量存在多重共線性且無組結構和存在組結構且顯著變量組內沒有零系數和有零系數時,相同樣本量下,組合預測模型比單項預測模型有更高的分類精度。組合預測模型由基于組間變量選擇的gMCP-L方法和基于雙層變量選擇GB-L方法組合對于各數據類型都具有優良的性質。本文推薦在實際應用中使用gMCP+GB-L組合方法。

表2 組合預測模型中解釋變量之間存在多重共線性和存在組結構(模擬4到模擬6的分類精度)
*:表中SCAD-L、gMCP-L、GB-L的分類精度數據摘自文獻[6]。“多重共線性”表示解釋變量之間存在多重共線性且無組結構;“組結構且組內無零系數”表示解釋變量存在組結構且顯著變量組內沒有零系數;表中“組結構且組內有零系數”表示解釋變量存在組結構且顯著變量組內有零系數。
3.假設檢驗
本文利用Studentt檢驗和Wilcoxon秩和檢驗,通過六種模擬數據得到訓練集總體精度檢驗文章中組合方法之間的差異的統計學意義。Studentt檢驗和Wilcoxon秩和檢驗均得到gMCP+GB-L方法與gMCP+SCAD-L、gMCP+cMCP-L和cMCP+SCAD-L方法具有顯著差異。而gMCP+SCAD-L、gMCP+cMCP-L和cMCP+SCAD-L方法兩兩之間不存在顯著差異。其檢驗得到的P值如表3。

表3 Student t檢驗和Wilcoxon秩和檢驗得到的P值
*:1代表gMCP+SCAD-L方法;2代表gMCP+cMCP-L方法;3代表gMCP+GB-L方法;4代表cMCP+SCAD-L方法;“-”表示其左右兩端數字對應的方法進行比較。
本文用UCI 數據庫中Arrhythmia 數據集進行實證分析,該數據集有452個樣本,每個樣本包括了279個屬性,其中包括年齡、性別、心率、身高等。在該數據集中,由于每個樣本的第14個屬性幾乎都是缺失的,因此將這一屬性剔除;另外再剔除屬性數據缺失的樣本,最后得到420個樣本,278個屬性。該數據集的屬性維度較高,對數據進行不同的分類時,每個類別的樣本量又較少,有的甚至沒有樣本。因此將420個樣本分為兩類:心律失常病人和正常人,其中有183個心律失常的病人,并將此作為類別0的數據集;有237個正常人作為類別1的數據集。


表4 Arrhythmia 數據集的組合預測分析的分類精度
*:()中的數值為組合預測模型文中式(7)到(10)的權重w的值。表中SCAD-L、gMCP-L、GB-L的分類精度數據摘自文獻[6]。
由表4可得,在對Arrhythmia 數據集的實證分析中,組合預測模型對訓練集的總體預測精度均高于單項預測模型的總體預測精度。在訓練集中,對比單項預測模型,除了gMCP+cMCP-L方法外,gMCP+SCAD-L、gMCP+GB-L、cMCP+SCAD-L方法得到的總體預測精度有所提升,其中對測試集總體的預測中gMCP+GB-L方法的分類精度達到79.1%。比單項預測模型中最高分類精度77.9%高出1.2%。
從測試集的分類預測精度來看,除了gMCP+cMCP-L方法外,gMCP+SCAD-L、gMCP+GB-L、cMCP+SCAD-L方法對病人(即y值為0數據集)和正常人(即y值為1的數據集)的預測精度都介于組成它的兩個單項預測方法對應的預測精度之間;而gMCP+cMCP-L方法對心律失常的人的預測精度比gMCP-L和cMCP-L方法的預測精度都低。其中gMCP+GB-L方法對病人診斷的精確率最高。
總體來看,組合預測模型一定程度上平均了單項預測模型的優點和缺點。在對Arrhythmia數據集的分析中,gMCP+GB-L方法依然保持了最優的分類預測精度。
本文通過最小絕對誤差和法的權重選擇方法建立了gMCP+SCAD-L、gMCP+cMCP-L、gMCP+GB-L、cMCP+SCAD-L四個組合方法,并從模擬研究和實證分析兩方面對這四個組合方法進行比較。從結果上看,gMCP+GB-L方法在模擬研究和實證分析中均顯示出了更高預測精度。模擬研究表明,解釋變量存在的相關性越強,樣本量越大,組合預測模型的優勢更為明顯;解釋變量存在多重共線性且無組結構和存在組結構且顯著變量組內沒有零系數時,相同樣本量下,組合預測模型比單項預測模型有更高的分類精度。在實證分析中,組合方法對正常人的預測精度普遍更高,對患病者的預測gMCP+GB-L方法最高為76.4%,其他方法在57.5%~58.0%之間。
目前,組合方法在各個領域中得到越來越多的重視,各種形式的模型組合得以不斷地研究,權重的選擇方法也不斷地發展。本文僅用了最小絕對誤差和法進行權重選擇,在今后的研究中,可以選用多種權重選擇方法,比較其效果;二是可以在變量選擇的模型內組合多個懲罰項。
[1] Bates JM,Granger CWJ.The Combination of Forecasts.Journal of the Operational Research Society,1969,20(4):451-468.
[2] 李勤.組合預測方法研究綜述.價值工程,2012,31(29):23-25.
[3] Gao Y,Zhang X,Wang S,et al.Model averaging based on leave-subject-out cross-validation.Journal of Econometrics,2016,192(1):139-151.
[4] Zhang X,Yu D,Zon G,et al.Optimal Model Averaging Estimation for Generalized Linear Models and Generalized Linear Mixed-Effects Models.Journal of the American Statistical Association,2016,111(516):1775-1790.
[5] 徐敏捷,蘭月新,劉冰月.基于組合預測的網絡輿情數據預測模型研究.情報科學,2016,34(12):40-45+87.
[6] 莊虹莉,李立婷,林雨婷,等.基于logistic回歸懲罰函數的疾病診斷.中國衛生統計,2017,34(1):139-143.
[7] Huang J,Breheny P,Ma S.A Selective Review of Group Selection in High-Dimensional Models.Statistical Science,2012,27(4):481-499.
[8] 高少龍.幾種變量選擇方法的模擬研究和實證分析.山東大學,2014.
[9] Wei F,Huang J.Consistent group selection in high-dimensional linear regression.Bernoulli:official journal of the Bernoulli Society for Mathematical Statistics and Probability,2010,16(4):1369-1384.