李海超,王開軍,胡 淼,陳黎飛
(1.福建師范大學 數學與信息學院, 福州 350007; 2.福建省網絡安全與密碼技術重點實驗室(福建師范大學), 福州 350007)
回歸模型中啞變量的相對重要性指數
李海超1,2*,王開軍1,2,胡 淼1,2,陳黎飛1,2
(1.福建師范大學 數學與信息學院, 福州 350007; 2.福建省網絡安全與密碼技術重點實驗室(福建師范大學), 福州 350007)
為在回歸模型中描述定性屬性,通常需要引入啞變量。對含啞變量的回歸方程,提出描述不同啞變量在回歸方程中不同重要程度的方法。該方法分解出含啞變量的回歸方程中啞變量部分和非啞變量部分的回歸平方和,計算這兩部分在該回歸方程中所起作用的占比,將該占比設計為各啞變量在回歸方程中的相對重要程度指數。在近10萬筆的Lending Club和Prosper網絡借貸數據集上,所進行的挖掘借款用途對借款成功率、信用等級對借款利率的影響程度的實驗結果表明,與傳統回歸方程僅提供啞變量前的系數卻不能展現其重要程度相比,所提方法展現出不同啞變量的不同重要程度,為定量分析回歸方程中定性自變量對因變量的影響程度提供了重要的手段。
定性屬性;回歸方程;啞變量;指數
對于回歸分析模型,在許多場合下,因變量除了受到那些定量自變量的影響外,也會受到定性變量的影響。例如,對于一些如性別、種族、婚姻狀況等這些無法定量度量或者無法直接觀測的一類自變量,稱為定性變量,也稱為啞變量。引入啞變量會使得線性回歸模型變得更復雜,但能對問題的描述簡單明了,一個方程能達到多個方程的作用,而且更接近現實,使得模型更完美[1-2]。一般情況下,在啞變量的設置中,肯定類型通常取值為1,否定類型則取值為0;類似的,若是這種定性變量含有多種變量取值時,可以引入多個啞變量來處理。涉及線性回歸模型的一種典型任務就是分析自變量對因變量的影響程度,這通常是通過分析自變量前的系數來解釋影響程度。對于含有啞變量的回歸模型,分析不同啞變量的重要程度也是一類重要的任務。現有的相關文獻主要都是直接通過模型的回歸系數(即,啞變量前的回歸參數)來比較各啞變量在回歸方程中的重要性程度,其中:吳小英等[3]直接用啞變量前回歸系數分析了借款用途對借款成功率的影響; Leistritz[4]在回歸分析中使用啞變量,研究分析了啞變量的系數對各因子影響;Hardy[5]對啞變量系數的解釋是給定相同x值的多個類別之間的y的差異;Grotenhuis等[6]研究認為所有啞變量前估計參數是與原始參考類別的偏差,進而用系數直接來分析各案例;Usman等[7]構建啞變量模型,直接用系數得出job_logistics和discipline_ECE這兩項因素對畢業生的薪酬影響最小;Gürtler等[8]通過引入虛擬變量回歸系數研究結果表明,交易復雜性、評級和再保險周期是巨災債券保護(Catastrophe Bonds, CAT)的重要驅動因素;文獻[9-12]都僅僅圍繞啞變量前的系數來對各啞變量的重要性進行探究分析,得出的結論不是很明確;楊希等[13]在多元回歸分析中引入啞變量,用回歸系數僅僅發現各啞變量是否具有顯著性,且僅得出正負影響;徐衛華等[14]引入控制變量和啞變量,構建產業結構優化升級的3個動態面板模型,直接利用回歸系數分析其是否有顯著性影響,而不能得出具體的結論。因此,當啞變量較多、回歸方程較復雜時,這種用人眼觀察的系數對比法則很難實施,啞變量回歸系數的解釋及其意義往往不正確或不能得出準確結論[15]。為了用客觀方法代替這種人眼觀察對比法,本文提出一種判定不同啞變量的相對重要性指數方法,用來衡量各啞變量對因變量的影響程度。
在回歸分析當中,常見的有解釋變量(因變量)和被解釋變量(自變量),而被解釋變量的影響因素包含定量變量的因素外,還可以包含定性變量的因素。為了將定性變量引入回歸模型,在模型中引入一種特殊的變量,即“啞變量”。使用啞變量可以使得我們在模型中引入定性回歸元,使得模型更精確[16]。
當在研究一個因變量與多個自變量之間的相關關系時,影響因變量的因素有很多,包括定量自變量,也包括定性自變量; 而這種定性自變量通常可以引入啞變量來處理,常取0、1等,這些編碼值并不代表著具體數量的大小,它們沒有數量大小關系,僅僅是用來表示啞變量中各個不同的分類類別。假設一個影響因素的定性自變量有k個分類類別(k個水平),為避免出現共線性,則通常需定義k-1個啞變量來表示這些分類類別[17]。設影響因變量Y的定量自變量為X,啞變量為D;D有k個分類類別,這里Xi=(X1i,X2i,…,Xmi)T、Dji=(D1i,D2i,…,D(k-1)i)T(其中i=1,2,…,n,j=1,2,…,k-1,Dj為第j個啞變量)和Yi分別是第i個觀測值對應的定量自變量、啞變量和因變量,通常可以將含有啞變量的回歸模型寫成:
Yi=α0+α1X1i+…+αmXmi+β1D1i+…+βk-1D(k-1)i+
γ1D1iX1i+…+γk-1D(k-1)iXmi+εi
(1)
式中:k代表啞變量中有k個分類類別;α1,α2,…,αm為m個定量自變量的回歸系數;α0,β1,…,βk-1為各啞變量的回歸系數;γ1,γ2,…,γk-1為啞變量與各定量變量之間的交互影響回歸系數,分別反映了各啞變量對因變量Y的平均影響程度,根據這些系數的t值檢驗來判斷啞變量是否對因變量Y存在顯著性影響;εi代表隨機誤差,通常假設εi是服從均值為0、方差為δ2的高斯分布,即εi~N(0,δ2),由此可以利用觀測值來進行參數的估計。


對含啞變量部分的回歸平方和SSRDj(其中j=1,2,…,k-1,Dj為第j個啞變量),求解出它占總平方和SSTDj的比例,于是啞變量重要性指數設計如下:
(2)

實驗數據是美國網貸平臺Lending Club在2012年里49 737筆有效借貸數據,每筆借貸樣本屬性主要包括借款金額、借款用途、借標人數、利息率、年利率、借款時長、資助金額(成功募集)、信用評級、FICO(Finance Controlling)評分、總信用額度、房屋所有權、月收入、債務對收入比率、循環信貸余額、循環信貸利用率、教育程度、地址、工作年限等信息。直觀上看,借款用途說明了借款人借款的目的,其必定是作為投資人重要的考量標準,所以借款用途對借款成功率必有一定的影響。為了探究借款用途對借款成功率的重要性影響程度,本文引入7個啞變量0~6。本文將以Lending Club平臺數據為基礎,通過其近年來的數據分析研究借款用途對借款成功率的影響。
在進行回歸分析前,一些屬性如借款金額、資助金額、月收入等與利息率或債務收入比率之間具有不同的量綱和量綱單位,為了消除不同量綱對實驗結果的影響,把每個變量的數據標準化為均值為0、標準差為1的數據,使得這些屬性變量值的數量級相同,且無量綱,這樣獲得的標準化的回歸系數可以解決數據中各變量之間的可比性。另外,信用評級A、B、C設為高信譽,賦值為1;信用評級D、E、F為低信譽,賦值為0。房屋所有權情況,租房賦值為0,抵押賦值為1,已有賦值為2;FICO評分區間取其平均數,如FICO值為“679~713”,則取平均值696;借款用途共分為7種,先用0~6這7個數值代表各借款用途。
對上述Lending Club實驗數據,由于原始數據不免存在或多或少的多重共線性,故先對原始數據通過Lasso回歸[18]、MallowsCp統計量方法[19],能夠把無關的自變量進行剔除。最后,選取借款用途、資金需求、資助金額、借標人數等變量。利用上述變量,構建含有啞變量的回歸模型(1),評估模型中各啞變量對因變量的重要性影響程度。其中選用資金需求、資助金額、借標人數等屬性作為模型中的X,啞變量借款用途用Di表示(i取值:0為其他債務,1為債務鞏固,2為汽車債務,3為信用卡,4為小額商業,5為家庭改善,6為大宗購買),以借款成功率為因變量Y。其中,其他債務作為基礎啞變量,其他借款用途則作為對比類型。然后,利用上述各變量構建含有啞變量的回歸模型(1),評估模型中各啞變量對因變量的重要性影響程度。通過t值顯著性檢驗,剔除顯著性不強的部分,可以得到債務鞏固、汽車債務、信用卡債務、小額商業、家庭改善、大宗購買、其他債務等7種借款用途的最終的含啞變量的回歸方程,如下所示。
基礎類型:
E(Yi|Xi,D0=0)=0.429 6-0.523 3x1+0.603 6x2+
0.099 6x3
債務鞏固:
E(Yi|Xi,D1=1)=0.429 6-0.523 3x1+0.603 6x2+
0.099 6x3+0.065 4D1
汽車債務:
E(Yi|Xi,D2=1)=0.429 6-(0.523 3-0.404 4D2)x1+
(0.603 6+0.322 4D2)x2+0.099 6x3+0.058 7D2
信用卡:
E(Yi|Xi,D3=1)=0.429 6-0.523 3x1+0.603 6x2+
0.099 6x3+0.088 1D3
小額商業:
E(Yi|Xi,D4=1)=0.429 6-0.523 3x1+(0.603 6-
0.168 9D4)x2+0.099 6x3+0.096 4D4
家庭改善:
E(Yi|Xi,D5=1)=0.429 6-0.523 3x1+0.603 6x2+
0.099 6x3+0.049 9D5
大宗購買:
E(Yi|Xi,D6=1)=0.429 6-(0.523 3-0.654 6D6)x1+
(0.603 6+0.490 6D6)x2+0.099 6x3+0.122 9D6


表1 各借款用途回歸參數與相對重要程度指數分析比較Tab. 1 Comparison and analysis of regression parameters and relative importance indices of each loan purpose
針對Prosper平臺2005年11月— 2012年2月的 49 992筆有效借貸數據(Loans數據)進行研究分析,每筆借貸樣本的屬性主要包括借款利率、貸款利率、從起始日算起的月數、借款金額、債務與收入比率、借款月數、信用等級、貸款狀態等。直觀上看,信用等級是Prosper平臺是對不同信用級別的借款人設置借款利率的參考標準,所以信用等級對借款利率有一定的影響。本文將以此平臺數據為基礎,通過其近年來的數據分析研究借款人的信用等級對其借款利率的影響。因此,本文選取因變量借款利率(Borrower Rate)Y;自變量屬性借款金額(Amount Borrowed)X1、債務與收入比率(Debt ToIncome Ratio)X2、借款月數(Term)X3作為定量變量。首先為了解決量綱問題,把數據標準化、歸一化。自變量屬性W(信用等級(CreditGrade)),為定性變量,設置成啞變量Di(i取值為:0表示未評級NC;1表示信用為HR等級,風險極高;2表示信用為E等級;3表示信用為D等級;4表示信用為C等級;5表示信用為B等級;6表示信用為A等級;7表示信用為最高AA等級),這樣的分類有助于迅速分析出各啞變量對借款人的借款利率的不同影響程度。其中,未評級NC作為基礎啞變量,其他信用等級作為對比類型。利用上述各變量構建含有啞變量的回歸模型(1),評估模型中各啞變量對因變量的重要性影響程度。
于是本文通過t值顯著性檢驗,剔除顯著性不強的部分,最終得到含啞變量的回歸方程,如下所示。
基礎類型NC:
E(Yi|Xi,D0=0)=0.845 9+0.079 0x1+0.006 8x2+
0.171 4x3
信用等級HR:
E(Yi|Xi,D1=1)=0.845 9+0.079 0x1+0.006 8x2+
0.171 4x3+0.272 1D1
信用等級E:
E(Yi|Xi,D2=1)=0.845 9+0.079 0x1+0.006 8x2+
0.171 4x3+0.269 1D2
信用等級D:
E(Yi|Xi,D3=1)=0.845 9+0.079 0x1+0.006 8x2+
0.171 4x3+0.029 6D3
信用等級C:
E(Yi|Xi,D4=1)=0.845 9+0.079 0x1+0.006 8x2+
0.171 4x3-0.213 0D4
信用等級B:
E(Yi|Xi,D5=1)=0.845 9+0.079 0x1+0.006 8x2+
0.171 4x3-0.376 7D5
信用等級A:
E(Yi|Xi,D6=1)=0.845 9+0.079 0x1+0.006 8x2+
0.171 4x3-0.559 5D6
信用等級AA:
E(Yi|Xi,D7=1)=0.845 9+0.079 0x1+0.006 8x2+
0.171 4x3-0.672 7D7


表2 各信用等級回歸參數與相對重要程度指數分析比較Tab. 2 Comparison and analysis of regression parameters and relative importance indices of each credit grade
含啞變量的回歸模型作為一種特殊的回歸分析模型,而傳統的判定各啞變量對因變量Y影響的重要性程度方法是直接通過啞變量的回歸參數,當部分啞變量的回歸系數差別較小,或者回歸系數的值較小時,這種用人眼觀察的系數對比法則不易得出明確的結論,甚至有時候使用回歸得到的系數不能直接作為重要性程度的標準。為了用客觀方法代替這種人眼觀察對比法,本文提出新的不同啞變量在回歸方程中的相對重要性指數的方法,將用它來度量各啞變量對回歸方程的重要性影響程度,得到了比較好的效果。與傳統回歸方程僅提供啞變量前的系數卻未展現其重要程度相比,本方法展現了不同啞變量的不同重要性,為定量分析回歸方程中定性自變量對因變量的影響程度提供了可靠的工具。
References)
[1] 張曉峒.計量經濟分析[M].北京: 經濟科學出版社,2000:242-271.(ZHANG X T. Econometric Analysis[M]. Beijing: Economic Science Press, 2000:242-271.)
[2] 章曉英.虛擬變量在線性回歸模型中的應用[J].重慶工業管理學院學報,1998(2):84-88.(ZHANG X Y. Application of dummy variable in linear regression model[J]. Journal of Chongqing Institute of Technology Management, 1998(2):84-88.)
[3] 吳小英,鞠穎. 基于最小二乘法的網絡借貸模型[J].廈門大學學報(自然科學版),2012,51(6):980-984.(WU X Y, JU Y. Network borrowing model based on least squares method[J]. Journal of Xiamen University (Natural Science), 2012,51(6):980-984.)
[4] LEISTRITZ F L. Use of dummy variables in regression analysis[J]. Agricultural Economic Miscellaneous Report Technical, Agricultural Experiment Station, North Dakota State University, 1973, 4(43):434-442.
[5] HARDY M A. Regression with Dummy Variables[M]. Thousand Oaks, CA: SAGE Publications, 1993: 96.
[6] GROTENHUIS M T, THIJS P. Dummy variables and their interactions in regression analysis: examples from research on body mass index[EB/OL].[2016- 11- 20]. http://www.ru.nl/publish/pages/780171/table1-4.pdf.
[7] USMAN A U, ABDULKADIR H S, TUKUR K. Application of dummy variables in multiple regression analysis[J].Recent Scientific Research, 2015,7(11): 7440-7442.
[8] GüRTLER M, HIBBELN M, WINKELVOS C. The impact of the financial crisis and natural catastrophes on CAT bonds[J]. Journal of Risk and Insurance, 2016, 83(3): 579-612.
[9] SKRIVANEK S. The use of dummy variables in regression analysis[EB/OL].[2016- 11- 20]. https://www.moresteam.com/WhitePapers/download/dummy-variables.pdf.
[10] SUITS D B. Use of dummy variables in regression equations[J]. Journal of the American Statistical Association, 1957, 52(280): 548-551.
[11] HELLMANN T F, SCHURE P, VO D. Angels and venture capitalists: substitutes or complements?[J]. Social Science Electronic Publishing, 2015,11(7): 1301-1307.
[12] SEARLE S R, UDELL J R. The use of regression on dummy variables in management research[J]. Management Science, 1970, 16(6): 397-409.
[13] 楊希, 王蘇生. 政府背景風險投資對創業企業經營績效的影響[J]. 大連海事大學學報(社會科學版), 2016, 15(5):52-58.(YANG X, WANG S S. Influence of government background venture capital on the performance of startup enterprises[J]. Journal of Dalian Maritime University (Social Science Edition), 2016, 15(5):52-58.)
[14] 徐衛華, 何宜慶, 鐘慧安. 金融深化、科技創新與產業結構優化升級——基于我國30個省市1997~2014年面板數據分析[J]. 金融與經濟, 2017,15(3):54-64.(XU W H, HE Y Q, ZHONG H A. Financial deepening, technological innovation and industrial structure optimization and upgrading-based on panel data analysis of 30 provinces in China from 1997 to 2014[J]. Finance ans Economy, 2017,15(3): 54-64.)
[15] POLISSAR L, DIEHR P. Regression analysis in health services research: the use of dummy variables[J]. Medical Care, 1982,20(9): 959-966.
[16] 龐浩.計量經濟學[M].北京:科學出版社,2015: 190-199.(PANG H. Econometric Analysis[M]. Beijing: Science Press, 2015: 190-199.)
[17] 高鐵梅.計量經濟分析方法與建模[M].北京:清華大學出版社,2009: 76-79.(GAO T M. Econometric Analysis Method and Modeling[M].Beijing: Tsinghua University Press, 2009: 76-79.)
[18] TIBSHIRANI R. Regression shrinkage and selection via the Lasso: a retrospective[J]. Journal of the Royal Statistical Society, 2011,73(3): 273-282.
[19] MALLOWS C L. Some comments on CP[J]. Technometrics, 2000,42(1): 87-94.
This work is partially supported by the National Natural Science Foundation of China (61672157), the Project of Network and Information Security Key Theory and Technological Innovation Team in Fujian Normal University (IRTL1207).
LIHaichao, born in 1990, M. S. candidate. His research interests include machine learning, financial data mining.
WANGKaijun, born in 1965, Ph. D., associate professor. His research interests include machine learning, intelligent learning and reasoning, data mining, pattern recognition.
HUMiao, born in 1994, M. S. candidate. His research interests include machine learning, data mining.
CHENLifei, born in 1972, Ph. D., professor. His research interests include statistical machine learning, data mining, pattern recognition.
Relativeimportanceindexofdummyvariablesinregressionmodel
LI Haichao1,2*, WANG Kaijun1,2, HU Miao1,2, CHEN Lifei1,2
(1.CollegeofMathematicsandInformatics,FujianNormalUniversity,FuzhouFujian350007,China;2.FujianProvinceNetworkSecurityandCryptographyLaboratory(FujianNormalUniversity),FuzhouFujian350007,China)
To describe the qualitative attributes in the regression model, it is usually necessary to introduce dummy variables. For the regression equation with dummy variables, a method was proposed to describe the different importance of the different dummy variables in the regression equation. The sums of square due to regression with dummy variables were descomposed, including the sum of the dummy variable part and that of non-dummy variable part, and the proportions of the two parts was calculated in the regression equation, and the proportion was taken as the index of relative importance of every dummy variable in regression equations. In sets of Lending Club and Prosper network with nearly 100 thousand lending data, the experimental results about the influence of the purpose of loan on the borrowing success rate and the influence of credit grade on the borrowing rate show that compared with the traditional regression equation which only provides a dummy variable coefficient and cannot shows its importance, the proposed method can show the importance of different dummy variables, and provide an important means to quantitatively analyze the influence degree of qualitative independent variables on the dependent variable in the regression equation.
qualitative attribute; regression equation; dummy variable; index
2017- 05- 16;
2017- 06- 05。
國家自然科學基金資助項目(61672157); 福建師范大學網絡與信息安全關鍵理論和技術創新團隊項目(IRTL1207)。
李海超(1990—),男,湖南臨武人,碩士研究生,主要研究方向:機器學習、金融數據挖掘; 王開軍(1965—),男,福建福州人,副教授,博士,主要研究方向:機器學習、智能學習與推理、數據挖掘、模式識別; 胡淼(1994—),男,安徽太和人,碩士研究生,主要研究方向:機器學習、數據挖掘; 陳黎飛(1972—),男,福建福州人,教授,博士生導師,博士,主要研究方向:統計機器學習、數據挖掘、模式識別。
1001- 9081(2017)11- 3048- 05
10.11772/j.issn.1001- 9081.2017.11.3048
(*通信作者電子郵箱wkjwang@qq.com)
TP181
A