蔡 超,李心怡
(山東工商學院 統計學院,山東 煙臺 264005)
眾數回歸是在解釋變量給定的條件下估計響應變量的條件眾數,這是最近統計文獻中一個活躍的研究領域。特別是,如果響應變量的條件分布是高度偏斜的或具有厚尾特征,那么對條件眾數的估計比對條件均值或條件中位數的估計更為有效,因為在這種情況下,均值或中位數可能無法捕捉響應變量條件分布的主要趨勢。眾數回歸也被廣泛應用于實際問題中,如田茂茜和虞克明(2017)[1]運用眾數回歸探究中國城鎮居民的收入影響因素;Wang 等(2017)[2]運用眾數回歸構建阿爾茲海默癥的預測模型;曹睿和田茂再(2019)[3]將眾數回歸應用于病例對照次級分析中;Wang等(2019)[4]運用眾數回歸構建人臉識別中的回歸框架。
Sager 和Thisted(2007)[5]最早提出了線性眾數回歸模型;緊接著,Lee(1989)[6]提出了采用0-1 損失函數的線性眾數回歸模型,并使用最大似然法進行系數的估計;Lee和Kim(1998)[7]討論了基于刪失數據的線性眾數回歸模型;Yao和Li(2014)[8]提出了基于MEM算法的線性眾數回歸模型,并證明了估計量的漸近正態性;Zhao等(2015)[9]提出了基于經驗似然估計的線性眾數回歸模型;Ota 等(2019)[10]提出了基于線性分位數回歸估計的線性眾數回歸模型;Wang和Li(2021)[11]將線性眾數回歸模型推廣到大數據框架下,提出了分布式線性眾數回歸模型。盡管線性眾數回歸模型對于偏態數據的處理已經有了很大改善,但線性函數表達能力受限,因此需要研究具有靈活性的非參數眾數回歸模型。一些學者對非參數眾數回歸模型進行了一系列的研究,如Yao等(2012)[12]提出了基于局部多項式的非參數眾數回歸模型,并證明了該模型在數據存在異常值或為重尾分布時,估計的結果比基于局部多項式的均值回歸模型更加有效;Chen 等(2016)[13]提出了基于核密度估計的非參數眾數回歸模型;Chen(2018)[14]綜述了核密度估計方法在非參數眾數回歸模型研究中的進展,并討論了其估計算法和帶寬的選擇問題;Feng 等(2020)[15]從統計學習的角度討論了非參數眾數回歸模型,表明可以通過經典的經驗風險最小化來求解;袁萬里等(2020)[16]鑒于現有基于局部多項式的非參數眾數回歸模型計算復雜度高的問題,提出了基于B 樣條的非參數眾數回歸模型;劉婷婷等(2020)[17]借助非參數分位數回歸估計的理論成果,提出了基于非參數分位數回歸估計的非參數眾數回歸模型。
以上文獻關于非參數眾數回歸模型的理論研究已經非常豐富,但是其往往只能處理單一變量,而實際數據往往具有多個解釋變量,這使得上述文獻提出的非參數眾數回歸模型在實際應用上具有很大的局限性。因此,本文基于眾數回歸方法和Elith 等(2008)[18]提出的提升回歸樹模型,提出了一個新的非參數眾數回歸模型:眾數回歸提升樹(Modal Regression Boosting Tree,簡稱MRBT)模型。迄今為止,尚沒有文獻將機器學習方法推廣到眾數回歸框架下,本文所提出的眾數回歸提升樹模型豐富了非參數眾數回歸模型這一領域的文獻。該模型的基本思想是:首先,對數據進行訓練獲得一個基眾數回歸樹;然后,在前一棵基眾數回歸樹估計殘差的基礎上迭代訓練新的基眾數回歸樹,從而達到估計殘差隨著迭代次數增加而逐漸減小的效果;最后,線性加總多個基眾數回歸樹,得到眾數回歸提升樹。該模型的優勢在于:(1)能夠處理多元非線性眾數回歸問題,并且考慮了解釋變量之間的交互性;(2)采用Boosting 這一集成方法,提高了模型的預測精度。將所提出的眾數回歸提升樹模型應用于數值模擬和實際數據中,結果表明:第一,眾數回歸提升樹模型的估計和預測性能都顯著優于線性眾數模型、眾數回歸樹模型;第二,在數據呈對稱分布時,眾數回歸提升樹模型與中位數回歸提升樹模型、均值回歸提升樹模型估計和預測性能基本一致;第三,在數據呈偏態分布時,眾數回歸提升樹模型的估計和預測性能顯著優于中位數回歸提升樹模型和均值回歸提升樹模型。
假設由解釋變量xi??p和響應變量yi組成的數據集為,線性眾數回歸函數記為:
其中,Mode為眾數。式(1)可以通過下式求解:
其中,Φh(t)=h-1Φ(t/h),Φ(?)為標準正態分布的概率密度函數,h為窗寬。
眾數回歸樹采用二元切分法遞歸創建,每一次都將數據集劃分成兩個獨立的子區域。假設當前切分變量為第j個變量x(j),對應切分特征值為s,即可將數據集劃分并定義為兩個區域:
相應的輸出值為:
依次遍歷每個特征變量j及其對應的每個特征值s,最優的切分變量j*和最優的切分特征值s*是使式(5)最小的(j,s)。
按照最優的j*和s*將數據集劃分為R1(j*,s*) 和R2(j*,s*) ,再將R1(j*,s*) 和R2(j*,s*) 按照上述方式繼續進行劃分,直到不可劃分為止。這時數據集被劃分為L個葉節點R1,R2,…,RL,每個葉節點的輸出值為:
假設有測試數據z??p屬于眾數回歸樹的第l個葉節點,即z?Rl,則在眾數回歸樹中z條件下的眾數預測值為:
其中,f(y|z?Rl)為給定z?Rl時在葉節點Rl中所有y值的條件密度函數。式(7)可以使用核密度估計方法進行求解。
眾數回歸提升樹模型是將眾數回歸方法與提升回歸樹模型相結合的一種集成學習方法,可以理解為提升回歸樹模型在眾數回歸框架下的擴展,其基本思想是:首先,以yi為響應變量和xi為解釋變量擬合第一棵眾數回歸樹;然后,計算第一個眾數回歸樹的殘差,以殘差為響應變量和xi為解釋變量構建第二棵眾數回歸樹,以此類推,不斷將上一棵眾數回歸樹的殘差作為新的響應變量擬合新的眾數回歸樹;最后,將生成的所有眾數回歸樹進行線性組合,得到眾數回歸提升樹模型。構建眾數回歸提升樹模型的具體步驟如下:
步驟1:以yi為響應變量,xi為解釋變量,構建眾數回歸樹是參數。估計的殘差為
步驟2:對m=1, 2, …計算殘差:
本文通過數值模擬檢驗所提出的眾數回歸提升樹(MRBT)模型的估計和預測性能,并與線性眾數回歸(LMR)模型、眾數回歸樹(MRT)模型、中位數回歸提升樹(QRBT)模型和均值回歸提升樹(RBT)模型進行比較分析。以上結果都通過R語言編程實現。
考慮獨立同分布的誤差分布(i.i.d.Error)的數據生成機制:
考慮非獨立同分布誤差分布(Non-i.i.d.Error)的數據生成機制:
其中,隨機誤差項εi考慮了5 種分布情況:標準正態分布εi~N( 0,1) ;自由度為3 的t 分布εi~t( 3) ;伽瑪分布εi~Gamma(1,1);左偏的混合正態分布εi~0.5×N(-1,1.52)+0.5×N(1,0.52);有異常值的混合正態分布εi~0.95×N(0,1)+0.05×N(0,52)。xi由均勻分布U(-1,1)隨機生成,m(xi)是一個復雜的非線性函數:
為比較MRBT、LMR、MRT、QRBT 和RBT 模型的估計和預測能力,令樣本量n=1000,分別生成服從不同誤差分布的數據集。對于每一個數據集,隨機抽取70%的樣本數據作為訓練集進行估計,將剩余的30%作為測試集進行預測,并且計算估計和預測的平均絕對誤差(MAE)和均方根誤差(RMSE),重復100 次進行數值模擬試驗。在每次試驗中,都通過網格搜索法對MRBT、MRT、QRBT 和RBT 模型的每個葉子節點中最小的觀測值數量這一超參數進行了尋優處理,其尋優的區間為[2,10]。
表1 和下頁表2 分別報告了訓練集和測試集100 次重復試驗的MAE 和RMSE 的均值,其中括號內為100 次結果的標準差。同時為了進一步檢驗數據結果在統計上是否顯著,構建樣本t檢驗對100 次重復試驗的誤差結果進行假設檢驗,結果也列在表1和表2中。其中,(1)MRBT模型是一個非參數的集成方法,因此在MRBT與LMR和MRT模型的檢驗中采用右側檢驗考察MRBT 模型的估計和預測的誤差是否小于LMR 和MRT 模型;(2)由于在隨機誤差項服從正態分布和t分布時,眾數、均值和中位數是一致的,因此當數據服從對稱分布時,在MRBT與QRBT 和RBT 模型的檢驗中采用雙側檢驗 考察MRBT 與QRBT 和RBT 模型的估計和預測的誤差是否一致;(3)由于在隨機誤差項服從伽瑪分布和混合正態分布時,眾數、均值和中位數并不一致,因此當數據服從偏態分布時,在MRBT 與QRBT 和RBT 模型的檢驗中采用右側檢驗考察MRBT 模型的估計和預測誤差是否小于QRBT和RBT模型。

表2 測試集誤差結果
由表1 和表2 可以看出:第一,從訓練集和測試集誤差結果來看,MRBT模型的MAE 和RMSE 值 均 小于LMR 和MRT模型,且其t 檢驗的P 值基本上都為0,即拒絕原假設。這表明MRBT模型的估計和預測性能顯著優于LMR和MRT模型。第二,當誤差項服從標準正態分布和t 分布時,MRBT 模 型與QRBT 和RBT 模型 的MAE 和RMSE 值 大致相同,且t 檢驗的P 值均遠大于5%,即不拒絕原假設。這表明數據為對稱分布時,MRBT模型的估計和預測性能與QRBT和RBT模型沒有顯著的差異。第三,當誤差項服從伽瑪分布和左偏混合正態等偏態分布時,MRBT 模型的MAE和RMSE值均小于QRBT和RBT模型,且t檢驗的P值均為0,即拒絕原假設。這表明數據為偏態分布時,MRBT模型的估計和預測性能顯著優于QRBT 和RBT 模型。第四,當誤差項服從帶有異常值的混合正態分布時,MRBT與QRBT模型的MAE和RMSE值基本一致,且均小于RBT模型;在t檢驗的結果中,MRBT與QRBT模型檢驗的P值基本上遠大于5%,而MRBT 與RBT 模型檢驗的P 值基本為0。這表明當數據帶有異常值時,MRBT模型的估計和預測性能與QRBT模型基本一致,且顯著優于RBT模型。主要的原因在于,在帶有異常值的混合正態分布中,眾數和中位數是一致的,但與均值顯著不同。
為進一步驗證MRBT模型在實際數據中的表現,本文選取空氣質量數據集(Air quality)、汽車耗油量數據集(Auto)和波士頓房價數據集(Boston)進行分析。空氣質量數據集來自R 包“rpart”,包含臭氧量、降水量等4 個變量,有111個觀測值;汽車耗油量數據集來自UCI機器學習庫,包含氣缸數、馬力等8 個變量,有392 個觀測值;波士頓房價數據集來源于R 包“MASS”,包含房價、人均犯罪率、超大住宅用地比例等14 個變量,有506 個觀測值。圖1 為用線性最小二乘回歸所得殘差的Q-Q圖。由圖1 可知,三個實際數據的殘差分布明顯偏離正態分布,且有離群值。對殘差進行Shapiro-Wilk正態性檢驗,P值均為0。這表明應使用更具穩健性的眾數回歸提升樹模型進行分析。

圖1 實際數據最小二乘擬合殘差的Q-Q圖
分別選取以上數據集的70%作為訓練集,將剩余30%的數據作為測試集,使用MRBT、LMR、MRT、QRBT 和RBT 對訓練集進行擬合,然后,對測試集進行預測,使用平均絕對誤差和均方根誤差進行評價。以上過程重復試驗100次。超參數每個葉子節點中最小觀測值數量同樣在范圍[2,10]中通過網格搜索法進行尋優。
下頁表3 分別報告了5 個模型在實際數據集訓練集和測試集上的誤差結果,t 檢驗的結果也列在表3 中。由表3可以看出,無論是在訓練集還是在測試集上,MRBT 模型的估計和預測誤差都小于LMR、MRT、QRBT和RBT模型,且t檢驗絕大部分P值都小于5%,即拒絕原假設。這表明在具有偏態特征的實際數據集上,MRBT 模型的估計和預測性能都顯著優于上述4 個模型,這與數值模擬的結論是一致的。

表3 實際數據集誤差結果
本文將眾數回歸模型與提升回歸樹模型相結合,提出了一個新的非參數眾數回歸模型——眾數回歸提升樹模型,其基本思想是:首先,構建單棵眾數回歸樹;其次,利用Boosting 方法逐步構建多棵眾數回歸樹,提取上一棵眾數回歸樹殘差中的有效信息;最后,將所有的眾數回歸樹進行線性匯總獲得眾數回歸提升樹模型。該模型是將機器學習方法應用于眾數回歸模型上的有益嘗試,其主要優勢在于:一是可以解決含有多元解釋變量的非參數眾數回歸問題;二是彌補了眾數回歸樹模型預測性能低的缺陷;三是可以很好地應用于偏態或含有異常值的數據中,獲得更為精確的結果。從數值模擬和應用研究的結果可以看出:
(1)眾數回歸提升樹模型的估計和預測性能都顯著優于線性眾數回歸模型和眾數回歸樹模型。
(2)在數據呈對稱分布時,眾數回歸提升樹模型與中位數回歸提升樹模型、均值回歸提升樹模型的估計和預測性能基本一致。
(3)在數據呈偏態分布或具有異常值時,眾數回歸提升樹模型的估計和預測性能顯著優于中位數回歸提升樹模型和均值回歸提升樹模型。
在未來的研究中,一是要進一步將機器學習方法推廣應用到眾數回歸模型,如構建眾數回歸梯度提升樹模型等;二是應將所提出的非參數眾數回歸模型應用于具有偏態分布特征的收入數據中研究收入差距問題,獲得更穩健的估計結果。