999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Lasso回歸模型的遺傳性疾病與遺傳位點關聯分析

2019-03-10 13:49:56楊師華
數學學習與研究 2019年1期

楊師華

【摘要】致病位點的查找定位對研究遺傳性疾病有非常重要的意義,其中對多性狀標簽組合關聯分析問題的方法研究比較缺乏.本文構建的基于Lasso回歸的遺傳位點關聯分析模型,不僅可以解決多標簽關聯分析問題,還兼顧了傳統統計檢驗方法的準確性和機器學習方法的高效性.

【關鍵詞】關聯分析;Lasso回歸;特征選取;多標簽;遺傳位點

遺傳性疾病的關聯遺傳位點探測是生物信息主要研究的問題之一,它對遺傳疾病的研究、診斷和藥物研發等均起到至關重要的作用.遺傳性疾病與遺傳位點的關聯分析是典型的“高維低樣本”問題,人類全基因組中具有代表性的遺傳位點至少上萬個,然而與特定性狀相關的樣本往往只有幾百到幾千個.如何根據較少的樣本數據在上萬個遺傳位點信息當中選取與性狀關聯的少數位點,是本文主要解決的問題.

全基因組關聯分析普遍采用統計分析的方法.若檢驗單一位點在病例組和對照組的關聯作用,多采用卡方檢驗和讓步比,并通過多重假設檢驗進一步篩選[1].也有結合主成分分析構建位點與表現型之間的邏輯回歸模型進行位點篩選,該模型靈活度更高,并且還能同時分析多個位點或其他影響因素的共同關聯作用[2].復雜疾病由于是多種因素多個位點通過錯綜復雜的相互作用導致的,因此,其關聯分析多采用隨機森林等機器學習方法[3].上述方法基本只能用于單標簽問題,即針對單一性狀的位點關聯分析.但有些研究需要分析多個性狀共同相關的位點,因此,需要能用于多標簽問題的關聯分析.本文旨在構建能高效解決多標簽關聯分析問題的模型,分析數據來源于2016年全國研究生數學建模競賽B題“具有遺傳性疾病和性狀的遺傳位點分析”.

一、方法與模型描述

數據中給出了1 000個樣本的10個相關聯性狀的信息及其相應的9 445個位點的編碼信息,需要找出與10個性狀共同關聯的一個或幾個位點.其中,每個性狀的表現型用0或1表示,0為沒有該性狀,1為具有該性狀,則一個樣本的表現型信息可用十位的01組合表示,如0000000101.遺傳位點信息由基因型表示,基因型分三種:XX、XY和YY,本文分別用0,1和2表示,該編碼也代表了突變等位基因Y的個數.通過對原始信息的編碼轉換,就能獲得計算機可以識別和計算的數據結構.

原始的樣本表現型由10個0或1的性狀編碼組成,若把這10個性狀編碼作為訓練標簽,則對應多標簽問題.本文把樣本的表現型編碼視為一個10位長的二進制編碼,再把二進制編碼表示為十進制編碼,如0000000101的十進制編碼為5,則每種性狀組合對應一個十進制編碼,這樣就能把多標簽問題轉換為單標簽問題.此外,由于9 445個位點信息中含有較多的冗余位點,所以需要剔除無效位點從而降低維度.在1 000個樣本中十進制編碼為0(即完全正常)的樣本有300個,把非完全正常的樣本設為患病組,完全正常的設為對照組,如果一個位點的基因型分布在患病組和對照組之間高度相似,說明該位點對患病與否影響不大,可視為無效位點.通過計算位點基因型分布的余弦相似度,去除相似度大于等于0.99的位點,最終得到244個有效位點.

接下來構建關于有效位點和十進制標簽的Lasso回歸模型.Lasso回歸是Tibshirani[4]提出的一種收縮估計方法,其基本思想是在回歸系數的絕對值之和小于某個常數的約束條件下,使得殘差平方和最小化.傳統的逐步回歸分析和AIC準則和BIC準則進行最優模型選擇時,計算過程不但存在隨機誤差,而且會漏掉重要的變量,使得模型誤差很大.Lasso的主要優點在于可以估計模型參數的同時選擇特征變量,還保持良好的解釋性能[5].Lasso回歸模型具體描述如下:

目前解決Lasso問題最常用的算法是最小角回歸算法,它尋求歸一化正則路徑是一種殘差擬合的過程,在每次回歸的基礎上選擇新的變量,這樣就使得每次擬合的殘差不斷縮小.這種計算殘差的方法把標簽變量和已經選好的變量相互結合,因此,尋找Lasso方程最優解的過程也是特征選擇的過程.

二、結果分析與總結

上述模型算法通過R軟件實現并計算.當約束值λ足夠大時,路徑中將包含所有的特征變量,因此,選其接近1時所包含的位點,結果為:rs2273298,rs7543405,rs7368252,rs4646092,rs12145450,rs1883567,rs2143810,rs1541318,rs4391636,rs3013045,rs9659647,rs7555715,rs11121557和rs7522344.此結果與利用一般統計檢驗方法得到的結果基本一致,說明模型具有可靠性,同時能在保證準確性的前提下盡可能多地找出相關位點,說明它比一般統計方法效率更高.

【參考文獻】

[1]凃欣,石立松,汪樊,等.全基因組關聯分析的進展與反思[J].生理科學進展,2010(2):87-94.

[2]Yi H,Wo H,Zhao Y,et al.Comparison of dimension reduction-based logistic regression models for case-control genome-wide association study:principal components analysis vs.partial least squares[J].The Journal of Biomedical Research,2015(4):298-307.

[3]鄒亮,黃瓊,李驁,等.基于隨機森林和富集分析的阿爾茨海默癥GWA研究[J].中國科學:生命科學,2012(8):639-647.

[4]Tibshirani R.Regression Shrinkage and Selection via the Lasso[J].Journal of the Royal Statistical Society,2011(3):267-288.

[5]胡一睿,曲榮華,徐佳靜.Lasso與其他變量選擇方法的模擬比較[EB/OL].北京:中國科技論文在線[2010-09-07].http:∥www.paper.edu.cn/releasepaper/content/201009-150.

主站蜘蛛池模板: 国产欧美日韩91| 亚洲精品在线影院| 99性视频| 天堂网亚洲综合在线| 一级片免费网站| 色首页AV在线| 国产爽妇精品| 青青草原偷拍视频| 国产成人综合日韩精品无码首页| 国产成人精品视频一区二区电影| 香蕉视频国产精品人| 亚洲熟妇AV日韩熟妇在线| 欧美视频免费一区二区三区| 黄色网在线| 在线日韩一区二区| 91最新精品视频发布页| 久久黄色小视频| 亚洲自偷自拍另类小说| 国产无码在线调教| 成人综合在线观看| 国产欧美日韩综合在线第一| 三级视频中文字幕| 在线看片中文字幕| 中日韩一区二区三区中文免费视频| 国产系列在线| 999国产精品| 超碰精品无码一区二区| 无码精品国产dvd在线观看9久| 精品亚洲欧美中文字幕在线看| 欧美成人怡春院在线激情| 一本大道无码日韩精品影视| 丁香六月综合网| 亚洲bt欧美bt精品| 天天色综合4| 男人天堂亚洲天堂| 麻豆国产在线观看一区二区| 久久精品人妻中文视频| 成人国产精品网站在线看| 人人看人人鲁狠狠高清| 九九久久精品国产av片囯产区| 午夜福利无码一区二区| 久久www视频| 亚洲另类国产欧美一区二区| 亚洲电影天堂在线国语对白| 永久成人无码激情视频免费| 亚洲开心婷婷中文字幕| 亚洲精品大秀视频| 国产成人一区免费观看| 国产精品亚洲一区二区三区在线观看| 欧美无遮挡国产欧美另类| 一级毛片无毒不卡直接观看| 天天综合网色| 久草视频福利在线观看| 一级毛片高清| 青青草一区二区免费精品| 69av免费视频| 国产精品私拍在线爆乳| 自慰网址在线观看| 人人艹人人爽| 亚洲精品图区| 一本一道波多野结衣av黑人在线| 乱人伦99久久| 天天操天天噜| 国产伦片中文免费观看| 99无码熟妇丰满人妻啪啪| 毛片免费高清免费| 午夜福利免费视频| 四虎影视国产精品| 国产区91| 中文字幕人妻av一区二区| 国产精品原创不卡在线| 亚洲无码37.| 特黄日韩免费一区二区三区| 免费看a毛片| 不卡无码网| 日韩高清成人| 国产主播一区二区三区| 国模视频一区二区| 国产乱肥老妇精品视频| 人妻精品久久无码区| 99re在线视频观看| 久久综合干|