999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基因與壽命關系的統計分析

2016-03-16 03:03:26王碩楊陳銳峰
環球市場 2016年12期
關鍵詞:測量方法模型

王碩楊 陳銳峰

山東大學

基因與壽命關系的統計分析

王碩楊 陳銳峰

山東大學

在人體眾多基因當中,人類的壽命只與某些特定的基因高度相關。本文以兩組獨立的基因組,每組200個基因作為研究對象,通過線性回歸模型的方法,對眾多基因進行篩選,找到與人體壽命高度相關的基因。額外的,本文還應用了廣義相關性測量的方法對基因進行篩選,通過結果的對比比較找到最佳的結果。

基因;制藥;線性回歸;一般相關性測量

1.線性回歸相關理論與方法的應用

本文首先檢驗所用數據的正態性,即所用數據是否滿足正態假設。篩選自變量是本文研究的重中之重,首先本文采用了線性回歸的思想和方法篩選自變量。在第一部分中,本文采取了前進法、后退法以及逐步回歸的方法,結合AIC、BIC作為基本準則,對自變量進行篩選。進而,本文采用交叉驗證的方法對得到的多個結果進行優化。

線性回歸過程:

1.1boxcox變換

1.2數據清理:本文采用R語言中的函數OutlierTest() 與cook's distance的理論來檢驗異常值,最終遵循保守的做法,保留下了除去因變量缺失或為0以外的所有數據。

1.3多重共線性的檢測:研究發現,一些自變量具有非常大的VIF值,進而本文發現多重共線性普遍存在于自變量之間,進而本文需做進一步的改善來消除多重共線性。

1.4自變量篩選:自變量的篩選是線性模型中最重要的一部分。本文采用了前進法、后退法以及逐步回歸法的方法篩選自變量,并且均分別結合了AIC、BIC作為篩選準則。對于以上提及的兩種準則,試驗分別產生了3個線性回歸模型。然后,本文通過交叉驗證的方法,將兩組數據組分別分成10個片段,找到使得CV值達到最小的模型作為本文該部分的最佳模型。

1.5線性回歸模型結論

剩余壽命作為因變量:基于交叉驗證的模型:就第一組數據組而言,基于AIC準則并采用前進法的模型被認為是自變量選擇的最佳模型。就第二組數據組而言,基于AIC準則并采用后退法的模型被認為是自變量選擇的最佳模型。篩選模型之后,明顯發現多重共線性得到了顯著的改善,VIF圖也證實了這一說法。基于lasso回歸的模型:就第一組數據組而言,最終保留下了4個高度相關的自變量(基因):PYY, FLJ20323, FNDC4, CELP;就第二組數據組而言,最終保留下了6個與因變量高度相關的基因:BRP44L, PYY,FNDC4, SLC38A3, CASKIN2, SPIN。

2.GMC模型篩選自變量

2.1函數選擇

2.2GMC過程

選擇一個函數。 設定λ1和λ2的值,或者設定單個λ的值。 然后預先規定一個參考值,選取跑完數據之后自變量系數大于該規定的參考值的自變量,記錄下篩選出來的自變量的指數,將其余的自變量的系數設定為0. 隨后通過篩選出的自變量的系數計算出廣義相關性測量的值。改變λ1和λ2的值,或者改變單個λ的值, 重復第二至第四三個步驟。 通過循環改變λ1和λ2的值(或者是改變單個λ的值)100次,找到結果最大的廣義相關性測量的值并找到相應的自變量,即本文得到的最終的模型。這些得到的自變量便是與因變量高度相關的基因組。基于不同的預定的模型,重復步驟1至步驟6的過程,對每個模型找到使得廣義相關性測量達到最大值的自變量及廣義相關性測量的值,進而進行比較。

2.3GMC 模型結論

剩余壽命作為因變量:方法1:當采用函數g3(x)= x3時,兩個數據組的廣義相關性測量達最大值,并且值比其他四個函數均大恨多。因此最終本文選擇模型函數g3(x)= x3。方法2: 對于第一個數據組,當采用函數g4(x)= ex時,廣義相關性測量達最大值。此時函數g3(x)= x3同樣可以得到非常大的結果。對于第二個數據組,當采用函數g3(x)= x3時,廣義相關性測量達最大值。因此總的而言,函數g3(x)= x3最穩定,即為本文的最佳選擇。

3.結論

函數的選取在GMC的運用中是至關重要的,不同的函數可能會得到迥異的廣義相關性測量的值。從最終的結果我可以知道,當本文選取二次或三次函數時,得到的結果要優于其他函數得到的結果,尤其是三次函數表現最佳。這也就是說,因變量和擬合值之間很有可能是存在二次方或者三次方的關系的。同時本文注意到,因變量與自變量之間的相關關系也有可能因為R優化的局限性而被隱藏。舉個例子說明,廣義相關性測量的值在第二種方法中采用指數函數關系時突然變得很大,當出現這樣的情況時,我還需要做進一步的檢測。額外地,當本文對beta的值進行兩次優化時,結果會變得更高效,即廣義相關性測量的值會變得更大,然而這樣得到的結果非常接近于1,即失去了方法存在的意義。最后,本文還直接對總體自變量進行了抽樣選取,但結果發現這樣得到的結果不能覆蓋所有可能得到的結果,甚至不到其十分之一。

[1]Carroll, R. J. and Cline, D. B. H. (1988). An asymptotic theory for weighted least- squares with weights estimated by replication. Biometrika,75, 35-43.

[2]Carroll, R. J. and Ruppert, D. (1984). Power transformations when ftting theoret- ical models to data. J. Am. Stat. Assoc, 79, 321-328.

王碩楊(1994-),男,漢族,山東省青島市人,數學學士,單位:山東大學,研究方向:數理統計。

陳銳峰(1994-),男,漢族,重慶市人,學生,統計學士,單位:山東大學,研究方向:數理統計。

猜你喜歡
測量方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
把握四個“三” 測量變簡單
滑動摩擦力的測量和計算
滑動摩擦力的測量與計算
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
測量
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 亚洲天堂免费在线视频| 国产欧美视频在线| 日韩精品一区二区三区视频免费看| 亚洲一级毛片在线观| 在线观看91香蕉国产免费| 色婷婷狠狠干| 91网址在线播放| 国产人人乐人人爱| 一级毛片免费的| 亚洲精品不卡午夜精品| 女人18毛片一级毛片在线| AV无码无在线观看免费| 91视频区| 香蕉综合在线视频91| 色天堂无毒不卡| 潮喷在线无码白浆| 日日拍夜夜操| 国产三级韩国三级理| 久久国产乱子伦视频无卡顿| 99国产在线视频| 少妇高潮惨叫久久久久久| 在线视频亚洲欧美| 天天综合网站| 国产极品美女在线观看| 国产第一福利影院| 亚洲人网站| 狠狠色丁香婷婷| 91亚洲视频下载| 国产91无码福利在线| 国产激情第一页| 在线免费无码视频| 国产不卡网| 免费一极毛片| 国产区成人精品视频| 亚洲h视频在线| 91精品啪在线观看国产60岁| 欧美精品在线免费| 午夜爽爽视频| 热99精品视频| 97国产精品视频人人做人人爱| 久久国产精品娇妻素人| 美女无遮挡被啪啪到高潮免费| 国产精品一老牛影视频| a级毛片免费播放| 五月婷婷丁香色| 国内精自视频品线一二区| 国产精品美乳| 久久这里只有精品2| 亚洲中文在线看视频一区| 69av在线| 国产美女丝袜高潮| 欧美日韩精品在线播放| 国产精品网址你懂的| 国产精品黑色丝袜的老师| 蜜芽一区二区国产精品| 亚洲中文无码h在线观看| 中文字幕在线不卡视频| 亚洲午夜综合网| 国产女人在线视频| 欧美成一级| 国产成人精品日本亚洲| 国产亚洲第一页| 国产在线麻豆波多野结衣| 制服丝袜一区二区三区在线| 亚洲第一区欧美国产综合| 99热这里只有精品国产99| 国产日韩欧美精品区性色| 91小视频在线| 欧美性爱精品一区二区三区| 欧美日韩一区二区在线播放| 国产人人射| 精品人妻AV区| 午夜三级在线| 久久伊伊香蕉综合精品| 亚洲国产一成久久精品国产成人综合| 国产午夜福利在线小视频| 中文字幕亚洲另类天堂| 亚洲高清无在码在线无弹窗| 扒开粉嫩的小缝隙喷白浆视频| 亚洲V日韩V无码一区二区| 亚洲一级毛片| 亚洲第一视频免费在线|