999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

從本科生角度淺談生物醫學數據的統計建模心得

2017-12-26 20:26:41陳欣郁可沁魯涵魏永越趙楊于浩陳峰張汝陽
教育教學論壇 2017年52期
關鍵詞:心得體會

陳欣+郁可沁+魯涵+魏永越+趙楊+于浩+陳峰+張汝陽

摘要:由于生物醫學研究領域數據的復雜性,高效的統計建模尤為重要。筆者以肺癌全基因組關聯研究為例,結合建立肺癌風險預測模型的切身體會,建議研究者需要重視數據質量控制體系、反復推敲建模方法和策略、培養熟練的軟件操作技能。

關鍵詞:生物醫學數據;統計建模;預測模型;心得體會

中圖分類號:G642.0 文獻標志碼:A 文章編號:1674-9324(2017)52-0220-02

隨著生物信息技術的飛速發展,生物醫學研究領域的數據呈幾何級增長。近年來,生物醫學大數據受到學者們的廣泛關注。生物醫學大數據具有典型的“4V”特征:體量巨大(volume)、種類繁多(variety)、實時更新(velocity)、價值隱藏(value)[1];“3H”特點:高維(high dimension)、高度計算復雜性(high complexity)、高度不確定性(high uncertainty)[2]。因此,綜合利用生物學、醫學、數學、流行病學、統計學、計算機學等多個學科的方法和手段,從中挖掘“有價值”的信息,為生物醫學研究提供確鑿有效的證據,顯得尤為重要。

筆者以肺癌全基因組關聯研究(genome-wide association study,GWAS)為例,結合理論學習和案例實踐的切身體會,淺談利用GWAS數據建立肺癌風險預測模型的心得體會。

一、嚴謹的數據質量控制體系不容忽視

由于存在檢測、觀察、填寫或錄入錯誤,未經數據質控的原始數據極可能含有一些異常,甚至錯誤的觀測值。在研究設計之初,便要盡可能考慮規避產生錯誤數據。另外,統計建模之前,仍然必須對原始數據再次進行質量控制。在GWAS中,要同時對行(樣本)、列(位點)進行質量評價。例如,刪除次等位基因頻率低于5%、缺失率超過5%或哈代不平衡的位點;刪除分型失敗率超過5%、問卷性別與遺傳性別不一致、存在血緣關系、屬于離群值的樣本[3]。另外,同時需要對流行病學問卷及臨床數據進行核查。只有對數據進行清理后,才能用于后續關聯分析、統計建模。

二、合理的建模方法和策略值得精雕細琢

對于GWAS高維數據,合理的方法和策略不僅要考慮統計學性能(一類錯誤、檢驗效能、預測精度),還需要考慮分析效率(計算速度)。因此,研究者應該要深入思考,為研究項目量身定制一套“合理”的方法和策略。然而,現有的統計學模型和方法往往都有相應的應用條件。實際數據由于其變量結構的復雜性,不一定完全滿足所有的應用條件。并且,簡單的算法速度快,但統計性能相對低;復雜算法需要犧牲計算速度來提升統計性能。因此,研究者可能需要制定多個備選方案。

結合建模步驟,筆者將從以下幾個方面,淺談個人心得體會。

1.初始模型:一般擬合logistic回歸模型評價肺癌風險。模型中往往需要納入一些協變量,例如:年齡、性別、吸煙、人群分層等。一般參考以下納入原則:(a)在模型中有統計學意義(P≤0.05);(b)即便在模型中無統計學意義,但絕大多數同類研究顯示其是公認的影響因素。某些協變量可能是位點的混雜因素,例如人群分層。如果GWAS中忽視調整混雜因素的影響,則有可能導致誤報噪音位點的一類錯誤膨脹,或識別致病位點的檢驗效能降低[4]。

此外,研究者還需要考察協變量進入模型的形式。一般而言,無序分類變量以啞變量形式進入模型。當某些類別樣本量特別小,需要進行類別合并。有序分類變量、連續性變量則需要考慮是否以非線性的形式進入模型。一種最簡單的方式是,將連續性變量轉化為有序分類變量,并以啞變量形式進入模型。如果啞變量各組的系數呈現線性遞增的趨勢,則提示原始變量與結局變量間存在線性關系。否則,可采用啞變量、樣條函數等方法處理非線性關系。

2.因素篩選:研究者需要從GWAS數據50萬位點中篩選出肺癌相關位點,加入初始模型,以提高模型的預測精度。常規做法是,在初始模型中逐個納入位點,對位點的主效應進行假設檢驗。因檢驗次數達50萬次,研究者必須要考慮多重比較所致的一類錯誤膨脹。常見一類錯誤控制方法有Bonferroni法和FDR法。前者較為嚴格,后者較為寬松。GWAS識別位點一般采用“寧缺毋濫”的原則,傾向于采用嚴格的校正方法。除此之外,研究者還要在多個獨立的人群中驗證初篩的位點。如果位點在多個人群中都顯示與結局存在統計學關聯,則認為該位點是潛在的影響因素。

除基因位點主效應外,研究者還需要關注基因-基因、基因-環境交互作用。復雜疾病往由環境、基因相互影響,共同導致。因此,有必要在模型中對交互作用進行評估。例如,基因-環境交互作用可以顯著提高肺癌風險預測模型的預測精度[5]。

有效的降維策略能夠提高因素篩選的效率。筆者曾采用“信息熵初篩→對數線性模型再篩→多因素logistic回歸模型確認”的降維策略進行全基因組基因-基因交互作用分析[6]。信息熵方法計算速度快,且其統計量總是不小于對數線性模型,不會出現漏檢的情況。前兩步可以檢驗次數將1011次縮減至105次。檢驗次數降低6個數量級。最后一步,利用調整協變量的logistic回歸模型對關聯結果加以確認,防止出現假陽性。當然,研究者也可以根據項目“量體裁衣”,選擇其他降維方法,例如:隨機森林(random forest)、多因子降維(multifactor dimensionality reduction,MDR)等。

3.預測模型:經過遺傳因素篩選步驟后,研究者可通逐步回歸、LASSO等方法,建立含有與協變量、遺傳位點的主效應項、交互作用項的風險預測模型。根據受試者工作特征曲線(receiver operating characteristic curve,ROC)確定一個風險閾值,使得風險預測的靈敏度、特異度同時達到最優。若樣本的預測概率≥閾值,則預測該樣本為肺癌。

4.模型評價:從統計學的角度,可采用ROC曲線下面積(area under ROC,AUC)來評價模型的優劣[7]。此外,還可以采用交叉驗證的方式評價模型,即:訓練集擬合的預測模型對測試集的樣本進行風險估計,并計算AUC。然而,AUC并非衡量模型的唯一標準。如果預測模型形式簡單,應用便捷,即便AUC稍有遜色,也是優秀的模型之一。所以,筆者認為需要綜合考慮,權衡利弊。

三、熟練的軟件操作和編程技能令人事半功倍

扎實的理論基礎固然重要,熟練的軟件操作亦不可或缺。筆者建議研究者不要拘泥于某一軟件,本著“方便原則”利用多個軟件進行數據處理、統計建模。根據筆者的經驗,一般不太可能一次性完成建模工作,往往需要不斷調整分析策略和分析方法。因此,筆者建議研究者適當撰寫一些項目相關的通用程序。如果需要重新建模,只需要修改程序參數,微調代碼就可以建立新的預測模型。因此,這就要求研究者“功在平時”以培養編程能力。

基于肺癌GWAS風險預測模型的建模體會,筆者建議研究者需要重視數據質量控制體系、推敲建模方法和策略、培養熟練軟件操作技能。

參考文獻:

[1]王波,呂筠,李立明.生物醫學大數據:現狀與展望[J].中華流行病學雜志,2014,35(6):617-620.

[2]寧康,陳挺.生物醫學大數據的現狀與展望[J].科學通報,2015,(z1):534-546.

[3]陳峰,柏建嶺,趙楊,荀鵬程.全基因組關聯研究中的統計分析方法[J].中華流行病學雜志,2011,32(4):400-404.

[4]Zhao Y,Chen F,Zhai R,Lin X,Wang Z,Su L,Christiani DC.Correction for population stratification in random forest analysis[J].International Journal of Epidemiology,2012,41(6):1798-1806.

[5]Zhang R,Chu M,Zhao Y,Wu C,Guo H,Shi Y,Dai J,Wei Y,Jin G,Ma H,Dong J,Yi H,Bai J,Gong J,Sun C,Zhu M,Wu T,Hu Z,Lin D,Shen H,Chen F.A genome-wide gene-environment interaction analysis for tobacco smoke and lung cancer susceptibility[J]. Carcinogenesis,2014,35(7):1528-1535.

[6]Chu M,Zhang R,Zhao Y,Wu C,Guo H,Zhou B,Lu J,Shi Y,Dai J,Jin G,Ma H,Dong J,Wei Y,Wang C,Gong J,Sun C,Zhu M,Qiu Y,Wu T,Hu Z,Lin D,Shen H,Chen F.A genome-wide gene-gene interaction analysis identifies an epistatic gene pair for lung cancer susceptibility in Han Chinese[J].Carcinogenesis,2014,35(3):572-577.

[7]陳峰.醫用多元統計分析方法[M].北京:中國統計出版社,2000.

猜你喜歡
心得體會
強機制 重課堂 多踐行
網絡環境下高中信息技術教學模式的探討與實踐
固體物理教學的幾點心得體會
大學教育(2016年12期)2017-01-03 20:07:09
關于小學班級管理的理念和策略心得體會
亞太教育(2016年35期)2016-12-21 19:08:54
“算法與程序設計”教學的幾點體會
考試周刊(2016年93期)2016-12-12 10:50:42
將合作教育進行到底
黨的宗旨是為人民服務,學習三嚴三實心得體會
做好小學班主任工作的幾點心得體會
線下研修接地氣,磨課活動有實效
求知導刊(2016年9期)2016-05-01 16:02:31
高中英語教學的幾點體會
考試周刊(2016年17期)2016-03-31 00:43:35
主站蜘蛛池模板: 国产精品久久久久鬼色| 亚洲黄色成人| 欧美在线视频a| 国产乱人免费视频| 精品欧美日韩国产日漫一区不卡| 国产网站在线看| 广东一级毛片| 欧美高清国产| 国产9191精品免费观看| 国产91在线|中文| 亚洲av无码牛牛影视在线二区| 无码一区中文字幕| 色综合中文综合网| 99国产精品免费观看视频| 久久免费视频6| 国产乱子精品一区二区在线观看| 国产女人水多毛片18| 无码不卡的中文字幕视频| 99无码中文字幕视频| 在线观看国产精品第一区免费| 99视频在线看| 色综合国产| 全部免费特黄特色大片视频| 亚洲av无码久久无遮挡| 一级爱做片免费观看久久 | 国产免费黄| 亚洲69视频| 色婷婷成人| 97精品久久久大香线焦| 久久这里只精品国产99热8| 天天综合色网| 亚洲福利网址| 欧美性久久久久| 精品91在线| 国产在线一二三区| 欧美中文字幕一区| 亚洲欧美日本国产综合在线| 伊在人亞洲香蕉精品區| 久久99精品久久久久纯品| 亚洲精品桃花岛av在线| 欧美国产菊爆免费观看| 人妻21p大胆| 免费大黄网站在线观看| 国产精品综合久久久| 欧美国产在线精品17p| 在线中文字幕网| 97综合久久| 中字无码精油按摩中出视频| 久久男人资源站| 欧美色99| 国产欧美另类| 波多野结衣一区二区三区AV| 一级香蕉人体视频| 亚洲精品黄| 成人午夜视频网站| 久久久久亚洲av成人网人人软件| 国产精品精品视频| 精品三级网站| 久久特级毛片| 97在线公开视频| 亚洲最大情网站在线观看| av手机版在线播放| 99热这里只有成人精品国产| 国产a在视频线精品视频下载| 亚洲系列无码专区偷窥无码| 国产又大又粗又猛又爽的视频| 黄色污网站在线观看| 久久久精品无码一二三区| 久久鸭综合久久国产| 久久亚洲国产视频| 亚洲一区二区约美女探花| 欧美日韩激情| 午夜久久影院| 91丝袜乱伦| 亚洲日本中文字幕乱码中文| 免费一级无码在线网站 | 国产SUV精品一区二区6| 日韩a在线观看免费观看| 久久久成年黄色视频| 在线一级毛片| 在线精品视频成人网| 成人福利一区二区视频在线|