黃嘉玲 何賢英 黃 輝 張晉昕△
雙界點OR值最大法logistic回歸在中小學生登革熱知識提高影響因素研究中的應用*
黃嘉玲1何賢英2黃 輝3張晉昕1△
目的 探討雙界點OR值最大法logistic回歸在中小學生登革熱知識提高幅度的影響因素研究中的應用。方法 基于多階段分層整群隨機抽樣的廣州市中小學生登革熱相關知識傳播效果的干預研究的調查數據,建立中小學生登革熱知識提高幅度影響因素的雙界點OR值最大法logistic回歸模型,與采用連續型變量法、中位數法、單界點P值最小法的logistic回歸模型比較模型擬合效果,探討雙界點OR值最大法logistic回歸的優勢。結果 納入干預效果評估的共1311人,三年級299名,五年級331名,初二321名,高二360名。以高二數據為例,雙界點OR值最大法logistic回歸納入的自變量為知識基線得分、干預方式、登革熱病例數;其模型的擬合效果最好,且對于自變量分界點的劃分更合理,能夠更好地篩選出與結局有關聯的影響因素。結論 雙界點OR值最大法logistic回歸適用于中小學生登革熱知識提高幅度影響因素的研究。中小學生的登革熱知識的干預效果受多個因素的影響,應開展有針對性的健康教育。
logistic回歸 雙界點OR值最大法 登革熱相關知識 影響因素
登革熱是一種由登革熱病毒引起的急性傳染病,主要通過埃及伊蚊和和白紋伊蚊叮咬人體傳播。近年來,廣東的登革熱發病率位居全國最高[1],其中廣州在2014年累計報道登革熱病例37341例[2]。目前,登革熱尚無有效的疫苗預防。面對疫情威脅,重點還是要大力開展健康教育,動員廣大群眾積極參與到防蚊滅蚊中[3]。登革熱相關知識在登革熱的防控中扮演著非常重要的角色,加強登革熱知識的健康教育有利于提高登革熱的防控行為從而有效預防登革熱[4-5]。中小學生是易受蚊蟲叮咬的弱勢群體,針對中小學生進行登革熱知識的健康教育是登革熱防控的重要組成部分。本文擬基于廣州市中小學生登革熱相關知識干預研究的調查數據,探討雙界點OR值最大法[6]logistic回歸模型在中小學生登革熱相關知識提高幅度的影響因素分析研究中的應用,同時跟其他常用的3種自變量處理方法[7-9]對比模型的擬合效果,為下一步干預工作的開展提供依據。
1.數據來源
數據來源于中山大學公共衛生學院參與的關于動漫游戲對廣州市中小學生登革熱相關知識傳播效果影響的干預研究。采取多階段分層整群隨機抽樣的方法,從廣州市荔灣區、白云區抽取了12間中小學校。在上述中小學三年級和五年級、初二、高二各隨機抽取2個班,以班為單位隨機分到游戲組和閱讀組。完成基線調查的合格問卷共1608份,最終納入效果評估的問卷共1311份(完成基線調查、干預、干預后問卷調查),其中男生653名,女生656名(有2份問卷未填性別),三年級299名,五年級331名,初二321名,高二360名。選取干預后登革熱相關知識提高幅度(以提高分數的中位數為界,≥4分設為1,<4分設為0)作為因變量,相關的影響因素作為自變量,比較下述4種方法處理數據后擬合logistic回歸模型的效果。
本數據包含可能影響登革熱相關知識提高幅度的變量有:性別、年級、常住地(城鄉)、干預方式、是否使用電腦上網、家長是否反對玩電子游戲、是否認為電子游戲有益、是否愿意通過游戲學習健康相關知識、平時是否玩電子游戲、近一周是否參與清理蚊子孳生地、登革熱相關風險意識基線值、登革熱相關行為把握度基線值、學習過程滿意度評分、去年同校師生登革熱病例數和知識基線得分。除了上述后面五個變量為連續型自變量外,其他均為分類變量。
2.連續型自變量和logitπ單調變化關系以及混雜因素的判斷
logistic回歸中要求連續型自變量與研究結局之間滿足線性關系,否則可能得出影響因素和結局之間虛假的聯系[10]。一般對連續型自變量取值進行合理的分類可以解決自變量和結局之間的非線性關系。本文采用半參數回歸模型對連續型自變量和logitπ的函數關系進行判斷,根據自由度是否大于2,判斷自變量和logitπ之間是否滿足線性關系[11]。
當連續型自變量和logitπ不滿足線性關系時,在對其進行處理前,本文先判斷是否存在混雜因素,如年級、性別等。若存在混雜因素,先按其分層,再進一步在每層內探討連續型自變量與logitπ的單調變化關系。
3.連續型自變量參與擬合logistic回歸模型前的4種預處理方法
在分層分析中,當連續型自變量和logitπ仍不滿足線性關系時,分別采用目前常用的3種處理方法及雙界點OR值最大法對原始數據進行預處理,進而結合其他在單因素logistic回歸分析中P值小于0.2的變量去擬合多因素logistic回歸模型,采用向前LR方法篩選自變量,檢驗水準為0.05。
(1)連續型變量法[7],即連續型自變量直接參與回歸分析。
(2)中位數法[8],將連續型自變量的中位數作為分界點,轉化為二分類變量納入回歸分析。
(3)單界點P值最小法(Min_P)[9],該方法將連續型自變量的每一個取值都作為可能的潛在分界點,對所有潛在界點二分類分析并比較分析結果,選擇使P值最小的自變量取值作為分界點,據此轉化為二分類變量參與回歸分析。
(4)雙界點OR值最大法(Max_OR),首先繪制連續型自變量和logitπ的函數關系圖(如圖1),然后從logitπ值最大的位置出發,用平行于x軸的直線橫切曲線,并向下平移。每次橫切得到兩個交點,將兩個交點對應的自變量范圍按照高、低風險將其重新賦值為二分類變量,再擬合logistic回歸模型,得到OR值。最后,選擇使OR值達到最大值時對應的自變量賦值方案作為最終的分類依據,轉化為二分類變量再納入回歸分析。
4.模型效果的評價
模型效果的評價主要考慮兩方面的內容,模型的擬合優度和變異的解釋程度。其中擬合效果的評價采用-2 Log likelihood和AIC準則;變異程度的解釋采用Cox&Snell R Square、Nagelkerke R Square系數進行評價。
5.軟件實現
采用Epidata 3.1軟件進行雙人雙錄入資料,使用R i386 3.3.1軟件完成全部數據分析。

圖1 自變量和logitπ的函數關系圖(n=1311)
1.自變量與logitπ的函數關系圖及混雜因素的判定(n=1311)
對所有納入效果評估的研究對象的數據(n=1311)采用半參數回歸模型判斷連續型自變量和logitπ的函數關系,其中只有“知識基線得分”與logitπ不滿足單調變化關系(見圖1,df=4.959),其余連續型自變量與對應的logitπ符合線性關系(略)。
方差分析的結果表明,4個年級的知識基線得分差異有統計學意義(F=137.806,P<0.001)。4個年級的知識得分的提高幅度有差異(χ2=16.648,P<0.001)。提示年級是影響“知識基線得分”和知識提高幅度之間關聯強度的混雜因素。因此,先對年級分層,再探討自變量“知識基線得分”和logitπ的函數關系。比較基線知識得分和知識得分提高幅度在男女之間的差異,結果均無統計學意義(P值均大于0.1)。
2.自變量與logitπ線性關系判定(按年級分層)
圖2表示根據年級進行分層,分別對每個年級的數據采用半參數回歸模型擬合得到自變量“知識基線得分”和logitπ的函數關系圖。圖2(a)中自由度等于2,說明在三年級里,連續型自變量“知識基線得分”和logitπ滿足線性關系。圖2(b)、圖2(c)和圖2(d)中均自由度大于2,說明分別在五年級、初二和高二年級里,連續型自變量“知識基線得分”和logitπ不滿足線性關系。
三年級學生的知識基線得分與logitπ呈單調變化關系,直接采用連續型自變量法來擬合logistic回歸模型。單因素logistic回歸結果表明,對于三年級的學生,尚不能認為知識基線得分跟知識提高幅度有關(OR=1.000,95.0%CI為0.966~1.036)。

圖2 自變量和logitπ的函數關系圖(4個年級)
3.用4種方法處理自變量并擬合logistic回歸模型的效果(高二)
表1為對高二的數據采用上述4種方法處理自變量“知識基線得分”后擬合多因素logistic回歸模型的信息匯總表。表2為高二的數據采用4種處理方法擬合多因素logistic模型的效果比較。

表1 高二學生數據擬合logistic回歸模型信息匯總表

表2 不同處理方法模型擬合效果比較(高二學生數據)
表1結果表明,連續型變量法、中位數法和單界點P值最小法均納入知識基線得分、性別、干預方式和登革熱病例數這4個自變量。連續型變量法的結果提示,在校正了其他變量的影響后,登革熱相關知識的基線得分越低的高二學生的知識提高幅度越高(OR=0.901,95.0%CI為0.859~0.944)。中位數法和單界點P值最小法的結果提示,在控制了其他3個影響因素后,高二的學生中,知識基線得分25分及以上的個體的登革熱知識提高幅度低于基線為25分以下的個體(OR=0.291,95.0%CI為0.184~0.460)。雙界點OR值最大法篩選出知識基線得分、干預方式和登革熱病例數這3個變量,說明在控制了其他2個變量的作用后,知識基線得分位于中等水平的高二學生的登革熱知識提高幅度較高(OR=6.983,95.0%CI為3.739~13.041),并且提示在校正了其他影響因素的作用后,尚不能認為性別、通過電子游戲學習健康相關知識的態度與登革熱相關知識的提高有關聯。
由表2可見雙界點OR值最大法模型擬合效果最好,表現在其AIC、-2 Log likelihood值最小,Cox&Snell R Square、Nagelkerke R Square最大。由此可見,雙界點OR值最大法能夠根據數據特征,更合理地量化自變量“知識基線得分”和結局之間的聯系,更好地篩選出與結局有關聯的影響因素,且模型的擬合優度、變異的解釋程度均比目前常用的分類法效果好。
分別對五年級、初二兩個年級的數據采用上述4種方法處理自變量“知識基線得分”后擬合logistic回歸模型并進行效果比較。結果顯示,與中位數法和單界點P值最小法相比,雙界點OR值最大法模型擬合效果最好,表現在其AIC、-2 Log likelihood值最小,Cox&Snell R Square、NagelkerkeR Square最大;因篇幅所限,略去。
logistic回歸分析的前提條件要求連續型自變量和logitπ之間滿足線性關系[12],但在實際應用中該條件很容易被忽視[13]。當該條件不滿足時,一般根據自變量和logitπ之間函數關系的具體形式選擇適宜的方法對自變量取值進行分類處理。目前常用的分類方法有中位數法和單界點P值最小法。然而,中位數法未考慮同一組內個體應具有同質性,并且導致不同研究團隊間結果橫向比較的困難[14];單界點P值最小法會導致低、高風險組比較時部分風險抵消。雙界點OR值最大法將OR值最大化作為尋找分界點的判定原則,OR值不僅能反映自變量和結局有無關系并且能充分概括這種關系的強弱。本文以廣州市中小學生登革熱相關知識的干預研究的調查數據為基礎,采用4種自變量處理方法處理自變量“知識基線得分”后擬合多因素logistic回歸并進行效果比較。結果表明,雙界點OR值最大法的AIC、-2 Log likelihood值最小,而且對于自變量界點的劃分和影響因素的篩選更合理。
以高二數據為例,連續型變量法、中位數法和單界點P值最小法的結果顯示,在校正其他變量的影響后,知識基線得分較低的學生的學習效果好。這與一般常識相悖。中位數法和單界點P值最小法把基礎較差和基礎中等的學生劃分為一組,錯誤地認為兩者學習效果相近。雙界點OR值最大法的結果提示,基礎較差(基線得分低于11分)的高二學生的學習效果較差,這對下一步的干預,如加強對基礎較差的學生的教育,有指導意義。本研究發現游戲組的登革熱知識的提高幅度優于閱讀組,這與其他健康教育領域的研究結論一致,如營養、糖尿病等領域均有文獻報道游戲的教育效果較好[15-16]。Ivan L.Beale等的研究提示游戲的干預方式能有效提高青少年癌癥相關的知識和自信心,而且效果優于對照組[17]。這提示有必要加強游戲形式的登革熱健康教育,從而提高教育效果。跟另外3種方法相比,雙界點OR值最大法的模型并沒有納入性別變量,提示在考慮到基礎較差以及其他因素的作用后,尚不能認為男女的學習效果有差異,這顯然更符合實際。
本研究采用的實例數據中觀察到的混雜因素只有年級,而且為了對不同年級提出針對性的干預措施,本研究在每個年級層面探索影響研究結局的因素。一般認為,應選擇符合數據特征和研究目的的方法來控制混雜因素[18]。因此,本文對年級進行分層,而不是直接將年級作為協變量納入logistic回歸,否則會得到三年級學生的知識基線得分與知識提高有關聯的虛假聯系。
綜上所述,雙界點OR值最大法logistic回歸適用到中小學生登革熱知識提高幅度影響因素的研究,得到的模型具有更好的解釋性。中小學生的登革熱知識的教育效果受多個因素的影響,應針對不同年級、知識基線不同的學生開展有針對性的、形式豐富的健康教育。
[1]Fan J,Lin H,Wang C,et al.Identifying the high-risk areas and asso-ciated meteorological factors of dengue transm ission in Guangdong Province,China from 2005 to 2011.Epidem iol Infect,2014,142(3):634-643.
[2]Cheng Q,Jing Q,Spear RC,et al.Climate and the Tim ing of Imported Cases as Determ inants of the Dengue Outbreak in Guangzhou,2014:Evidence from a Mathematical Model.PLoS Negl Trop Dis,2016,10(2):e4417.
[3]Ho T,Huang M,Wang S,et al.Know ledge,attitude,and practice of dengue disease among healthcare professionals in southern Taiwan.Journal of the Formosan Medical Association,2013,112(1):18-23.
[4]Al-Dubai S A,Ganasegeran K,Mohanad R A,et al.Factors affecting dengue fever know ledge,attitudes and practices among selected urban,sem i-urban and rural communities in Malaysia.Southeast Asian J Trop Med Public Health,2013,44(1):37-49.
[5]Castro M,Sanchez L,Perez D,et al.The relationship between econom ic status,know ledge on dengue,risk perceptions and practices.PLoSOne,2013,8(12):e81875.
[6]何賢英,趙志,溫興煊,等.logistic回歸中連續型自變量離散化為二分類變量時適宜分界點的確定.中國衛生統計,2015,32(2):275-277.
[7]Schellingerhout JM,Heymans MW,et al.Categorizing continuous variables resulted in different predictors in a prognostic model for nonspecific neck pain.Journal of Clinical Epidem iology,2009,62(8):868-874.
[8]Knüppel L,Hermsen O.Median split,k-group split,and optimality in continuous populations.AStA Advances in Statistical Analysis,2010,94(1):53-74.
[9]W illiams B,Mandrekar J,Mandrekar S,et al.Finding Optimal Cutpoints for Continuous Covariateswith Binary and Time-to-EventOutcomes.In Technical Reports Series#79 Rochester,MN:Department of Health Science Research,Mayo Clinic,2006.
[10]Wand H,Ram jee G.Analyzing Continuous Measures in HIV Prevention Research Using Sem iparametric Regression and Parametric Regression Models:How to Use Data to Get the(Right)Answer?.AIDS and Behavior,2012,16(6):1448-1453.
[11]陳長生,徐勇勇,夏結來.半參數回歸模型及模擬實例分析.中國衛生統計,2001,28(6):18-20.
[12]Jewell N P.Statistics for Epidem iology.1 edition.Chapman and Hall/CRC,2003:179-198.
[13]馮國雙,陳景武,周春蓮.logistic回歸應用中容易忽視的幾個問題.中華流行病學雜志,2004,(6):92-93.
[14]MacCallum RC,Zhang S,Preacher KJ,et al.On the practice of dichotom ization of quantitative variables.Psychological Methods,2002,7(1):19-40.
[15]Banos RM,Cebolla A,Oliver E,et al.Efficacy and acceptability of an Internet platform to improve the learning of nutritional know ledge in children:the ETIOBE Mates.Health Educ Res,2013,28,(2):234-248.
[16]DeShazo J,Harris L,PrattW.Effective intervention or child′s play?A review of video games for diabetes education.Diabetes Technol T-her,2010,12(10):815-822.
[17]Beale IL,Kato PM,Marin-Bow ling VM,et al.Improvement in cancer-related know ledge follow ing use of a psychoeducational video game for adolescents and young adults w ith cancer.J Adolesc Health,2007,41(3):263-270.
[18]Li L,Kleinman K,Gillman MW.A comparison of confounding adjustmentmethods w ith an application to early life determ inants of childhood obesity.JDev Orig Health Dis,2014,5(6):435-447.
(責任編輯:劉 壯)
Influencing Factors on Learning Effect of Dengue Related Know ledge of Primary and Secondary School Students:Application of M aximum OR Values M ethod in Logistic Regression
Huang Jialing,He Xianying,Huang Hui,et al(Department of Medical Statistics and Epidemiology,School of Public Health,Sun Yat-sen University(510080),Guangzhou)
Objective To explore the application of two cut-off points and maximum OR values method in logistic model for analyzing impact factors on the improvement of dengue related know ledge of primary and secondary school students.M ethods Maximum OR valuesmethod in logistic modelwas applied to themulti-stage stratified cluster random sampling data of the primary and secondary school students in Guangzhou to analyze impact factors on the learning effect of dengue related know ledge.In addition,themodel fitting effect of Maximum OR valuesmethod in logisticmodelwas compared w ith continuous variablesmethod,median splitmethod and one cut-off pointm inimum P valuesmethod.Results We enrolled a valid sample of 1311 students in evaluation of learning effect,containing primary 3,primary 5,junior 2 and senior 2 grades students.Maximum OR valuesmethod in logisticmodel retained variables of baseline know ledge scores,interventionmethod and dengue cases in data of senior 2,which presented the bestmodel fitting effect and performed better in screening out the impact factors related to outcome.Conclusion Two cut-off points and maximum OR valuesmethod in logistic model could be used to analyze impact factors on learning effect of dengue related know ledge of primary and secondary school students.There were multiple factors which influenced the learning effect of dengue related know ledge of primary and secondary school students,which are supposed to be developed aim measures of health education.
Logistic regression;Two cut-off points and maximum OR valuesmethod;Dengue related know ledge;Impact factors
廣東省科技計劃項目(2014A020212713);廣州市醫藥衛生科技項目(20141A010067)
1.中山大學公共衛生學院醫學統計與流行病學系(510080)
2.鄭州大學第一附屬醫院
3.廣州市健康教育所
△通信作者:張晉昕,E-mail:zhjinx@mail.sysu.edu.cn