999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于EM算法及Cox回歸模型下右刪失數據的研究

2023-12-02 08:30:31趙翠
科技資訊 2023年21期
關鍵詞:模型研究

趙翠

(貴州財經大學 貴州 貴陽 550025)

右刪失數據是刪失數據中最常見的數據類型,通常出現在實驗研究的各個鄰域范圍內,由于刪失數據的出現,越來越多的研究者也加入了右刪失數據的研究中。

右刪失數據問題是實驗數據中經常出現的、無法避免的,因此,學習和了解處理右刪失數據的方法的思想和原理尤為重要。其中,EM 算法作為一種優化算法,被廣泛應用于處理數據的缺失值,并且EM算法在處理數據缺失時有顯著優勢,比如:算法和原理簡單、收斂穩定、適用性廣等。另外,還介紹了Cox 回歸方法,Cox比例回歸模型是由英國統計學家D.R.Cox提出的一種半參數回歸模型。該模型以生存結局和生存時間為因變量,分析多因素對生存期的影響[1],該模型自提出以來就被廣泛應用于各領域,特別是在臨床醫學科研領域,該模型實現了巨大的價值,解決了生存數據中遇到的截尾數據問題。本文基于文獻背景展開研究,旨在探討解決右刪失數據的兩種實用方法并深入闡述其原理。

1 右刪失數據與類型

若在對一個研究事件進行觀察試驗時,由于外部條件的原因與觀測對象在開始或結束試驗時產生不同的結果,導致試驗中出現右刪失數據。右刪失在平時研究刪失數據的研究中經常避免不了它的出現,然而通過對右刪失進一步的研究發現,它可以分為3 種類型。具體敘述如下。

1.1 I型刪失(Type I Censoring)

對任何個體的觀察從同一個起始時間開始,在事先指定的同一個時間內結束,除了已經歷過終點事件的個體,若其他個體的觀察截止到某一個穩固的時間,這種刪失就稱為Ⅰ型刪失。

1.2 II型刪失(Type II Censoring)

所有研究對象的觀察起點是統一的,一直隨訪觀察到有足夠數量的終點結局事件發生為止,這時研究停止,未發生終點事件的研究對象的生存時間未知,這種刪失就稱為Ⅱ型刪失。

1.3 III型刪失(Type III Censoring)

在研究過程中,研究周期固定在一個范圍,研究對象開始和結束的時間不一樣,使得生存時間無法確定,像這種情況就稱為Ⅲ型刪失,由于刪失數據常常是隨機發生的,因此III型刪失又被稱為隨機刪失。

2 數據刪失產生的原因

在數學實驗和統計數據分析中,經常會產生數據刪失的情況。刪失數據是數據研究中不可避免的問題,在平時研究中只要涉及獲取數據的地方往往就避免不了數據的刪失。然而,在研究不同的數據時,產生的刪失數據也往往是不相同的。另外,在實驗中通常獲取數據的方式有調查獲取數據和應用獲取數據,調查獲取數據是通過人為地獲取數據,人們通過實時調查研究得到數據;應用獲取數據則是在一些互聯網平臺,經他人獲取的數據保留在一定平臺上面供其他人獲取,從而方便他人獲取想要的數據。而在調查過程中形成數據刪失是很普遍的情況[2]。現如今調查的方式多種多樣,除了一些比較傳統的調查之外,更流行于通過互聯網、大數據、文獻等方式獲取數據,然而這些方式獲取的數據更能導致數據的刪失。

通過數據的收集,我們了解到產生數據刪失的主要原因有以下幾個方面。

2.1 技術上無法獲取、技術不合理或錯誤

就是在技術設備上面由于機器的性能、運轉等發生故障,精確度不足導致的刪失,比如:車輛在運行過程中,實時速度,性能等數據無法獲取,導致缺失。

2.2 有不可使用的信息

主要表現在未收集到的數據存在明顯錯誤,例如:在調查過程中被調查者不認真回答問題,或者調查者工作不細心,導致數據填寫錯誤、記錄錯誤等造成數據刪失。

2.3 調查中的無回答

在數據采集過程中,多余調查問題沒有進行回答或者沒有有效回答,例如:調查問卷中涉及的某產品的滿意度不做出評價,這就造成了數據刪失。

綜上所述,第一種原因導致的缺失需要通過技術設備解決,或者轉化為第三種原因方式的缺失來處理;第二種原因導致的刪失需要完善調查過程中的管理模式;第三種原因導致的刪失需要對被調查者進行篩選,使調查過程的數據更加準確[3]。

3 對右刪失數據進行處理的方法

EM 算法、Cox 回歸方法常用來處理右刪失數據,并對右刪失做統計分析。下面重點了解這兩種處理右刪失數據的方法與原理。

3.1 EM算法

期望最大化算法(Expectation Maximization,EM 算法),是由DEMPSTER A P、LAIRD N、RUBIN D 這3 人在1977 年提出的。EM 算法作為一種迭代算法,主要分為兩個步驟,即E步和M步,分別是求密度函數的數學期望和極大值。EM 算法的提出解決了數據刪失存在的問題,為刪失數據的處理提供了便利。

下面對EM算法的基本思想簡單闡述如下。

設觀測數據X=(X1,X2,…,Xn1)T為獨立同分布的樣本,其密度函數為fX(x,θ),x=(x1,x2,…,xn1)T,未觀測到的數據為Y=(Y1,Y2,…,Yn-n1)T~fY(y,θ),且X和Y相互獨立。則完全似然函數為

E 步:假設有觀測數據x=(x1,x2,…,xn1)T及第i 步估計值θ=θ(i),就得到對數似然函數的數學期望為

M 步:求Q(θ|x,θ(i))關于θ 的最大值點θ(i+1),即找θ(i+1),使其滿足Q(θ(i+1)|x,θ(i)) =maxQ(θ|x,θ(i)),經過不斷迭代到數據收斂,即得到θ的極大似然估計。

也就是說,為了能夠很好地理解EM 算法這個概念,可以將EM 算法看成是一個不斷重復求一個特定參數的算法,如果在一個模型的參數是未知的情況下,就把它假設為θ(i),這樣進行下一步的計算,從而確定這組參數所對應的最可能狀態和概率數,然后在確定的這組參數所對應的最可能狀態下進行下一步修改,這樣就可以確定另外一個參數,同樣又在這個參數的情況下確定新的情況,對這個參數進行重復多次的估計,當求得模型的未知參數時就可停止迭代[4]。

3.2 Cox比例風險模型

Cox 比例回歸模型是由英國統計學家D.R.Cox 于1972 年提出的一種半參數回歸模型。它應用的主要范圍是解決生存分析問題。該模型的目的是探索影響生存率的危險因素有哪些,并做出影響因素的預后分析。

為了便于理解Cox 回歸模型,下面先了解幾個與Cox模型相關的函數[5]。

(1)危險率函數。

當t時刻還在存活的研究對象死于t時刻后一瞬間的概率,用h(t)表示為

式(3)中:T為觀察對象的生存時間;n(t)為t時刻的生存人數;n(t+Δt)為t+Δt時刻的生存人數。

(2)生存函數與危險率函數的關系。

(3)Cox回歸模型的基本形式

式(5)中,h(t,X)表示在t時刻的風險函數、風險率或瞬間死亡率;h0(t)表示基準風險函數,即所有變量都取0 時t時刻的風險函數;X1,X2,…,Xm表示協變量、影響因素或者預后因素;β1,β2,…,βm為自變量的偏回歸系數,它是須從樣本數據做出估計的參數[6]。

3.2.1 Cox回歸模型的參數估計

假設有n個患者,他們的生存時間從小排到大:t1≤t2≤…≤tn,對于任何生存時間ti來看,把不小于ti的所有病人看成是一個危險集合,記為R(ti)。在R(ti)內的病人,在ti以前是活著的,但由于生存時間的變化,R(ti)內的病人逐漸死亡,退出了觀察,直到最后一個病人死亡時,R(ti)消失。j代表ti時刻時間以后R(ti)中對似然函數做貢獻的個體[7]。

如果ti代表了真正的死亡,那么個體在時刻ti是死亡的條件概率為:

有截尾值時用δi來表示數據類型:δi=1,表示病人在ti時刻死亡;δi=0,表示病人在ti時刻截尾。得到偏似然函數為

兩邊取對數,得

求關于βk(k=1,2,…m)的一階偏導數,并求其等于0,即得到βk的最大似然估計值。

3.2.2 Cox回歸模型的假設檢驗

采用似然比檢驗剔除模型中原有不顯著變量,引入明顯的變量,并對變量個數不同的模型進行比較[8]。

檢驗新增加的協變量是否具有統計學意義的統計量為χ2=2[lnL(p+1) -lnL(p)],其服從自由度為1 的χ2分布,其中L(p)包含p個協變量的模型的似然函數值,L(p+1)包含p+1 個協變量的模型的似然函數值,假設檢驗步驟為:

步驟一:建立假設檢驗為H0:β1=β2=…=βm=0,H1:β1=β2=…=βm≠0。

步驟二:構造合適的統計量χ2= 2[lnL(p+ 1) -lnL(p)],服從于自由度為1 的χ2分布,確定拒絕域R,PH0{χ2∈R}=α。

步驟三:做出判斷,根據樣本觀測值算出統計量χ2的值,若χ2∈R,則拒絕H0;否則接受H0。

4 結語

本研究的主要目的是了解統計分析中發生的右刪失數據,并對存在的右刪失數據進行處理。首先,介紹了右刪失數據的相關概念及其右刪失數據的類型,在統計研究中,發生數據的刪失是很常見的一種情況,然而了解在統計分析中右刪失數據發生的原因同樣重要,我們知道了發生右刪失數據的原因主要為技術上無法獲取、技術不合理或錯誤,有不可使用的信息,調查中的無回答等。其次,研究了處理右刪失數據的方法,分別是EM 算法和Cox 回歸兩種處理方法。EM 算法是一種優化算法,該算法原理簡單,收斂穩定,適用性廣,被廣泛應用于處理數據的缺失值。Cox 回歸方法以生存結局和生存時間為因變量,分析了多因素對生存期的影響,主要應用于臨床醫學科研鄰域,解決了生存數據中遇到的截尾數據問題。在統計分析過程中,往往避免不了產生刪失數據,研究中給出的兩種處理辦法需要必備完善的統計數據,收集充足的數據集,在數據完整之后進行分析處理刪失數據。

猜你喜歡
模型研究
一半模型
FMS與YBT相關性的實證研究
2020年國內翻譯研究述評
遼代千人邑研究述論
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
新版C-NCAP側面碰撞假人損傷研究
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产成人综合亚洲欧洲色就色| 国产麻豆精品久久一二三| 午夜福利在线观看成人| 亚洲国产清纯| 色噜噜中文网| 欧美一区日韩一区中文字幕页| 亚洲AⅤ无码国产精品| 欧美日韩综合网| 国产超薄肉色丝袜网站| 亚洲第一区欧美国产综合 | 色网站免费在线观看| 久久精品91麻豆| 日韩精品免费一线在线观看| 美女免费黄网站| 欧洲成人在线观看| 色网站在线视频| 亚洲欧美一区二区三区蜜芽| 成人一区在线| 亚洲精品无码日韩国产不卡| 国产福利大秀91| 国产呦精品一区二区三区网站| 中文字幕丝袜一区二区| 在线视频97| 免费在线看黄网址| 强乱中文字幕在线播放不卡| 在线va视频| 亚洲Va中文字幕久久一区 | 国产理论最新国产精品视频| 亚洲欧美日韩成人在线| 成人精品视频一区二区在线| 99在线视频精品| 手机精品视频在线观看免费| 久久一日本道色综合久久| 国产主播福利在线观看| 国产成人一区在线播放| 久久精品日日躁夜夜躁欧美| 亚洲视频一区在线| 成年人视频一区二区| 色九九视频| 欧美国产视频| 欧美一区二区三区香蕉视| AV不卡国产在线观看| 呦女亚洲一区精品| 亚洲AⅤ波多系列中文字幕| 亚洲美女操| 亚洲伦理一区二区| 欧洲欧美人成免费全部视频| 国产www网站| 精品福利一区二区免费视频| 欧美不卡二区| 国产无码制服丝袜| 首页亚洲国产丝袜长腿综合| 日韩免费毛片| 99这里只有精品免费视频| 久996视频精品免费观看| 91国内在线视频| 久久视精品| 亚洲另类国产欧美一区二区| jijzzizz老师出水喷水喷出| 91精品情国产情侣高潮对白蜜| 欧美精品aⅴ在线视频| 天堂成人在线| 毛片网站在线看| 幺女国产一级毛片| 欧洲高清无码在线| 国产精品亚洲专区一区| 国产区人妖精品人妖精品视频| 在线另类稀缺国产呦| 中国一级特黄大片在线观看| 狼友视频国产精品首页| 日韩精品免费在线视频| 成人福利在线视频免费观看| 亚洲伦理一区二区| 蜜桃视频一区| 91探花在线观看国产最新| 一本大道香蕉高清久久| 亚洲精品在线观看91| 亚洲国产理论片在线播放| A级毛片无码久久精品免费| 77777亚洲午夜久久多人| 2021国产精品自拍| 亚洲日韩Av中文字幕无码|