孫立煒 王夢(mèng)仙 黃澤
摘? 要:由病毒引起的突發(fā)性傳染病是威脅人類(lèi)健康的大敵。在病毒性傳染病初期,從各種藥物中,篩選出能夠抑制病毒的有效藥物,能夠?yàn)橐咔榉揽嘏c治療贏得寶貴時(shí)間。藥物篩選的方法有很多,該文提出一種基于Logistic回歸分析的藥物篩選方法。對(duì)藥物篩選問(wèn)題進(jìn)行建模,應(yīng)用Logistic回歸分析方法,按照參數(shù)估計(jì)和顯著性檢驗(yàn)2個(gè)過(guò)程進(jìn)行求解,并進(jìn)行案例應(yīng)用分析。
關(guān)鍵詞:Logistic回歸? 數(shù)據(jù)挖掘? 藥物篩選? 建模
中圖分類(lèi)號(hào):G71 ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2020)08(b)-0214-03
A Drug Screening Method Based on Logistic Regression Analysis
SUN Liwei? WANG Mengxian? HUANG Ze
(Xiamen Nanyang University, Xiamen, Fujian Province, 361102 China)
Abstract: Sudden infectious diseases caused by viruses are a major enemy threatening human health. In the early stage of viral infectious diseases, screening out effective drugs that can suppress viruses from various drugs can win valuable time for epidemic prevention and treatment. There are many methods for drug screening. This paper proposes a drug screening method based on Logistic regression analysis. Modeling the drug screening problem, applying Logistic regression analysis method, solving according to the two processes of parameter estimation and significance test, and conducting case application analysis.
Key Words: Logistic regression; Data mining; Drug screening; Modeling
由病毒引起的突發(fā)性傳染病是威脅人類(lèi)健康的大敵。目前,人類(lèi)對(duì)病毒的認(rèn)識(shí)遠(yuǎn)遠(yuǎn)不夠,也沒(méi)有類(lèi)似于抗生素那樣的廣譜抗病毒藥物。因此,在病毒性傳染病初期,從各種藥物中,篩選出能夠抑制病毒的有效藥物,能夠?yàn)橐咔榉揽嘏c治療贏得寶貴時(shí)間。藥物篩選的方法有很多,基于穩(wěn)定而有效的數(shù)理統(tǒng)計(jì)方法就是其中之一。以Logistic回歸模型為工具調(diào)整或控制混雜因素的方法,是醫(yī)學(xué)研究者最熟悉也是使用最普遍的方法[1-4],可以應(yīng)用于藥物篩選。
1? 藥物篩選問(wèn)題的建模
設(shè)p為病人服藥后好轉(zhuǎn)的概率。A是所有治療方案的藥物集合,共有k種藥物,分別是a0,a1,…,ak。病人不可能只服用一種藥物,需要確定哪一種藥物起到重要作用。令變量xi表示該病人是否服用了第i種藥物,i=1,2,…,k。xi是一個(gè)2值化變量,xi=0表示病人未用藥物ai,xi=1表示病人服用藥物ai。利用logit函數(shù)建立回歸方程(式1)。誤差項(xiàng)ε服從正態(tài)分布,且每個(gè)樣本的誤差項(xiàng)相互獨(dú)立。
2? 模型的求解
模型的求解分為兩個(gè)過(guò)程,分別是參數(shù)估計(jì)和顯著性檢驗(yàn)。
2.1 參數(shù)估計(jì)
首先建立似然函數(shù)L,并求對(duì)數(shù),得到:
其中,n是樣本數(shù)量。然后,分別對(duì)β0,β1,…,βk求偏導(dǎo)數(shù)并令:
即可解出β0,β1,…,βk。
2.2 顯著性檢驗(yàn)
對(duì)回歸方程的顯著性檢驗(yàn)包括線性關(guān)系檢驗(yàn)和回歸參數(shù)檢驗(yàn)。
2.2.1 線性關(guān)系的顯著性檢驗(yàn)
線性關(guān)系的顯著性檢驗(yàn)的目的,是檢驗(yàn)全體自變量與ln(p/1-p)的線性關(guān)系是否顯著。步驟具體如下。
(1)定義截距模型,用L0表示截距模型的似然值。
(2)對(duì)于所要檢驗(yàn)的模型,其包含有若干自變量,其似然值為L(zhǎng)。
(3)構(gòu)造對(duì)數(shù)似然比的統(tǒng)計(jì)量G2,G2=2ln(L/L0)。G2近似服從自由度為k的χ2分布。
(4)提出假設(shè)。H0:β1,…,βk均為0;H1:β1,…,βk至少有一個(gè)不為0。
(5)給出顯著性水平α。如果G2≤χα2(k),則接受零假設(shè),認(rèn)為(1)式中所有回歸系數(shù)為0。如果G2>χα2(k),則拒絕零假設(shè),認(rèn)為(1)式中回歸系數(shù)不全為0,可以進(jìn)行下一階段的回歸參數(shù)顯著性檢驗(yàn)。
2.2.2 回歸參數(shù)顯著性檢驗(yàn)
回歸參數(shù)顯著性檢驗(yàn)的目的,是逐個(gè)檢驗(yàn)?zāi)P椭械母髯宰兞渴欠衽cln(p/1-p)有顯著的線性關(guān)系,刪除線性關(guān)系不顯著的變量,剩余的變量揭示出起到主要作用的藥物。步驟具體如下。
(1)提出假設(shè)。對(duì)參數(shù)βi,H0:βi=0;H1:βi≠0。
(2)計(jì)算Wald統(tǒng)計(jì)量。Wald=(βi/Sβi)2,其中βi是回歸參數(shù),Sβi是βi的標(biāo)準(zhǔn)誤差。Wald統(tǒng)計(jì)量服從自由度為1的分布。
(3)做出統(tǒng)計(jì)決策。計(jì)算各個(gè)自變量的Wald觀測(cè)值和對(duì)應(yīng)的概率p值,并設(shè)定顯著性水平α。如果對(duì)于某自變量,p<α,則拒絕零假設(shè),認(rèn)為該自變量與ln(p/1-p)有顯著的線性關(guān)系。如果p≥α,則接受零假設(shè),認(rèn)為該自變量與ln(p/1-p)沒(méi)有顯著的線性關(guān)系。逐個(gè)刪除線性關(guān)系不顯著的xi。每刪除一個(gè),就返回開(kāi)始的參數(shù)估計(jì)過(guò)程重新計(jì)算,直到所有的xi均與ln(p/1-p)有顯著的線性關(guān)系為止。剩余的自變量xi所對(duì)應(yīng)的藥物ai就是有效藥物。
3? 案例分析
現(xiàn)有用藥數(shù)據(jù)集D,包含了150例用藥案例。其中有50例在療程內(nèi)同時(shí)使用藥物A、B,好轉(zhuǎn)40例。有50例在療程內(nèi)同時(shí)使用B、C,好轉(zhuǎn)25例。有50例在療程內(nèi)使用A、C,好轉(zhuǎn)35例。部分?jǐn)?shù)據(jù)如表1所示。其中,id表示案例編號(hào),A表示是否使用A藥物(1為是,0為否),B表示是否使用B藥物,C表示是否使用C藥物,result表示病人是否好轉(zhuǎn)(1為是,0為否)。
采用Logistic回歸分析算法,建立的回歸方程為:
其中,p為病人好轉(zhuǎn)概率,x1,x2,x3分別表示該病人是否服用了藥物A、B、C。
計(jì)算軟件采用SPSS clementine 12.0,設(shè)定的顯著性水平α=0.005。計(jì)算過(guò)程如表2、表3和表4所示。其中,Β表示回歸參數(shù)值,得分表示似然比統(tǒng)計(jì)評(píng)分,S.E.表示回歸參數(shù)的標(biāo)準(zhǔn)誤差,Wald表示W(wǎng)ald檢驗(yàn)統(tǒng)計(jì)量的觀測(cè)值,df表示自由度,顯著性表示W(wǎng)ald檢驗(yàn)統(tǒng)計(jì)量對(duì)應(yīng)的概率p值。
從這3張表中可以看出,計(jì)算過(guò)程共有3個(gè)步驟(步驟0,1,2)。表2和表3說(shuō)明了步驟0的輸出情況,表4說(shuō)明了步驟1和步驟2的輸出情況。每個(gè)步驟都有參數(shù)估計(jì)和顯著性檢驗(yàn)2個(gè)過(guò)程。步驟0,參數(shù)估計(jì)β0=0.693。由于在顯著性檢驗(yàn)中,β2的顯著性為0.540,β3的顯著性為0.014,均大于顯著性水平α,應(yīng)逐個(gè)刪除。步驟1,刪除x3,參數(shù)估計(jì)β0=1.386,β1=-1.386,β2=-0.539。而在顯著性檢驗(yàn)中,β2的顯著性為0.251>α,還應(yīng)刪除x2。步驟2,刪除x2,參數(shù)估計(jì)β0=1.099, β1=-1.099。β1的顯著性為0.003<α,予以保留。最后,考慮到clementine的自變量編碼規(guī)則與表1的定義相反,得到回歸方程為:
這個(gè)回歸方程說(shuō)明,自變量x1對(duì)應(yīng)的藥物A是起到重要作用的有效藥物。
在病毒性傳染病初期,篩選出能夠抑制病毒的有效藥物,能夠?yàn)橐咔榉揽嘏c治療贏得寶貴時(shí)間。對(duì)藥物篩選問(wèn)題進(jìn)行建模,應(yīng)用Logistic回歸分析方法進(jìn)行求解,并做了案例應(yīng)用分析。
參考文獻(xiàn)
[1] 張偉東,王幸麗,楊紅,等.重癥哮喘患兒社交焦慮現(xiàn)狀調(diào)查及l(fā)ogistics回歸分析[J].中國(guó)健康心理學(xué)雜志,2020(3):363-367.
[2] 于健,徐剛,孫宏,等.后外側(cè)支撐固定治療脛骨平臺(tái)后外側(cè)髁骨折預(yù)后的多元Logistics回歸分析[J].中國(guó)組織工程研究,2019(32):5138-5145.
[3] Gong X,Cui J,Jiang Z,et al.Risk factors for pedicled flap necrosis in hand soft tissue reconstruction: a multivariate Logistic regression analysis[J].ANZ Journal of Surgery,2018,88(3):E 127-E131.
[4] 于媛媛.logistic回歸模型在流行病學(xué)病因分析中的偏性及其改進(jìn)策略研究[D].山東大學(xué),2018.
[5] 賈雨晴.多分類(lèi)logistics回歸排序集抽樣方法及其應(yīng)用[D].華中師范大學(xué),2017.
[6] Li Yuan,Chen Yumeng,Zhou Chunfen,et dl. Analyzing the Impact of Practice Environment on Nurse Burnout Using Conventional and Multilevel Logistic Regression Models[J].SAGE Publicatio-ns,2020,68(7):325-336.