段萱健, 徐平峰
(長春工業大學 數學與統計學院,吉林 長春 130012)
2019年12月以來,新型冠狀病毒肺炎(Corona Virus Disease 2019,COVID-19)爆發,目前已在全球范圍內蔓延,對世界各國都造成了很大影響,各國都采取了嚴厲措施限制其傳播。COVID-19臨床表現,從無癥狀或缺乏癥狀形式,到伴有呼吸衰竭的嚴重病毒性肺炎、膿毒癥和感染性休克的多器官和全身功能障礙,以及死亡。因此對于大學生來說,找到影響學生COVID-19認知的原因是十分必要的。
王福友等[1]用SIS方法結合Lasso變量選擇方法建立了Logistic回歸模型,通過AIC、BIC準則以及交叉驗證(CV)對基因表達數據進行了變量選擇。
文中下載了印度尼西亞大學生對COVID-19相關知識考察的數據[2],由于數據中自變量是分組變量,響應變量是多分類變量,因此,我們考慮結合Group Lasso懲罰似然方法和逐步回歸方法建立多類別logistic回歸模型,使用不同的模型方法選擇出最優模型。分析大學生對于新冠肺炎的知識了解情況,旨在更好地預防、遏制COVID-19的傳播,幫助學生正確認識COVID-19,理解且重視學校的各項防疫措施,做好心理防護,同時,協助學校進行管理、規劃教育、干預學生的認知。
多類別logistics回歸[3]將多分類響應變量與解釋變量聯系起來,是應用最廣泛的回歸模型??紤]一個多分類響應變量Y,具有K個類別,x=(x1,x2,…,xp)為解釋變量。給定數據集(xi,yi),xi=(xi1,xi2,…,xip),yi∈{1,2,…,K},i=1,2,…,N,參照文獻[4],多類別logistic回歸模型一般形式如下
(1)
式中:β0l——參數的截距項,βl=(β1l,β2l,…,βpl),l=1,2,…,K。
對于參數的可識別性,可以通過正則化解決,即有如下約束條件
βK=0,
(2)
式中:K——參照類別。
Group Lasso懲罰由Yuan M等[5]在2006年提出,參照文獻[6],文中將其寫為如下形式
(3)
式中:γJ——組權重,γJ∈[0,∞),J=1,2,…,m;
β(J)——參數β的第J塊,β=(β1,β2,…,βK-1)T。
多類別logistic回歸的對數似然為
(4)
式中:M1=I(yi=l|xi);
Group Lasso懲罰的極大似然估計,也就是估計懲罰負對數似然的最小值
(5)
式中:r——第J組中的變量個數,J=1,2,…,m;
λ——調節參數,λ≥0。
逐步回歸[7]的基本思路是從自變量中選取重要的變量,建立回歸分析的預測或者解釋模型。基本步驟是將自變量逐個引入或剔除,計算對應的模型AIC值或BIC值,通過這樣引入剔除變量的過程,選取這個過程中AIC值或BIC值最小的模型作為最優模型。
文中引用數據為印度尼西亞大學生對COVID-19相關知識、態度和實踐調查數據[2]的部分數據,包括社會人口信息(6個變量)、知識問卷(18個問題)、態度問卷(6個問題)和實踐問卷(12個問題)。文中使用其中的社會人口信息數據和知識問卷的數據。問卷有效標準為答卷人滿足:
1)本科生;
2)健康,無COVID-19;
3)從未患過COVID-19。
該調查共收到6 252份回復,但有3份回復由于標準未被滿足而被消除,因此共回收有效問卷6 249份。知識問卷的18個問題測試了COVID-19相關知識,包括病因、癥狀、風險群體、傳播和預防。對于知識問卷的每個問題,回答正確計1分,不正確計0分。我們計算出每名學生知識問卷的總分,進行離散化處理,分為優秀、良好、一般三類,一般記為1,良好記為2,優秀記為3,將其作為響應變量。社會人口信息的6個變量分別為性別、年齡、現居住地、入學時長、專業、職業。將這6個變量作為自變量,將其轉化為啞變量分別記為x1,x2,…,x10。其中第一組變量為x1,第二組變量為x2,第三組變量為x3,第四組變量為x4、x5、x6、x7,第五組變量為x8、x9,第六組變量為x10。
參與者社會人口的統計信息和具體的變量取值及分組說明見表1。

表1 參與者的社會人口信息(n=6 249)
文中選取的評價指標為精度(Accuracy,ACC)[8],即
利用GroupLasso懲罰對數似然方法,在訓練集上訓練模型,結合AIC、BIC準則和10折交叉驗證法(CV)選出最優模型,在測試集上計算模型擬合精度。在R軟件中,應用R包msgl來實現這個過程,結果見表2。

表2 Group Lasso懲罰對數似然方法在不同準則下選擇的結果
BIC值和AIC值變化分別如圖1和圖2所示。

圖1 BIC值變化

圖2 AIC值變化
由圖1和圖2可以看出,在實際計算過程中,隨著λ值的增加,AIC值與BIC值都呈現出單調遞減并趨于某一值的趨勢。從表2中可以看出,AIC準則和BIC準則選取了相同的模型,且選擇的模型為空模型,因此,應用AIC準則和BIC準則對該模型進行選擇的結果并不理想。三種模型選擇方法下的模型精度分別為0.358、0.358和0.356,都比較低,說明模型擬合效果一般。
基于文中研究數據,考慮有三種原因導致模型精度較低:
1)Group Lasso懲罰對數似然的多類別logistic回歸模型不適用于文中研究的數據集;
2)模型選擇的方法不適用于Group Lasso懲罰對數似然的多類別logistic回歸模型;
3)未考慮到變量序的影響。
利用逐步回歸的變量選擇方法在訓練集上訓練模型,結合AIC準則和BIC準則選擇最優模型,在測試集上計算模型的精度。在R軟件中,應用R包stats中的step函數和R包nnet中的multinom函數來實現這個過程。
逐步回歸方法在不同準則下選擇的結果見表3。

表3 逐步回歸方法在不同準則下選擇的結果
在5種最終模型的參數估計都通過檢驗的情況下,顯然BIC準則下的多類別逐步logistic回歸的精度最高,選擇變量最少,即應用逐步回歸+BIC準則得到的多類別Logistic回歸模型為基于大學生COVID-19認知數據的最優模型,即:
p1(xi)=1-p2(xi)-p3(xi)。
BIC準則下的多分類逐步logistic回歸模型結果見表4。

表4 BIC準則下的多類別逐步logistic回歸模型結果(參照類別:一般)
由表4可以看出,影響大學生對于COVID-19認知的因素主要為性別與現居住地。對于性別,與參考類別男性相比,女性的COVID-19知識水平傾向于優秀。對于現居住地,與參考類別城市相比,居住在鄉村的學生知識水平傾向于優秀。
基于印度尼西亞大學生對于COVID-19的認知數據,首先建立了多類別logistic回歸模型,其次分別使用Group Lasso懲罰對數似然和逐步回歸兩種變量選擇方法,利用AIC、BIC準則和交叉驗證三種方法選擇出最優模型為應用逐步回歸 + BIC準則得到的多類別Logistic回歸模型,最后結合最優模型的結果分析了影響學生對COVID-19知識掌握情況的因素。