999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

權重概率主成分分析模型的建立及應用研究*

2018-12-29 03:58:18哈爾濱醫科大學公共衛生學院衛生統計學教研室150081
中國衛生統計 2018年6期
關鍵詞:分析模型

哈爾濱醫科大學公共衛生學院衛生統計學教研室(150081)

高 兵 孫 琳 謝 彪 王文佶 曲思楊 劉美娜△ 張秋菊△

【提 要】 目的 建立權重概率主成分分析模型,通過模擬實驗進行模型評價,選擇最優模型進行代謝組學數據分析,為代謝組學數據分析提供降噪優化的分析方法。方法 使用折刀抽樣法計算變量載荷的置信區間和變異系數,利用變量載荷的變異信息設計倒數式、開根式、對數式三種加權方式進行原始數據中的變量加權,結合概率主成分分析模型建立權重概率主成分分析模型;通過模擬實驗從第一主成分載荷的估計和預測效能進行模型評價,選擇最優權重概率主成分分析模型;繪制代謝組學數據主成分得分圖,利用中心距離比較權重概率主成分分析模型與概率主成分分析模型在可視化分組效果。結果 倒數式加權概率模型在第一主成分載荷的估計和模型預測方面優于另外兩種權重概率模型。在可視化方面,權重概率主成分分析不僅縮小了模型估計的不確定性,而且增大組間的中心距離。結論 構建了權重概率主成分分析模型,不僅結果解釋和可視化優于概率主成分分析模型,而且為差異變量的篩選提供了一個較小的參考范圍。

在高維組學數據分析中,權重主成分分析(weighted principal component analysis,WPCA)[1]是根據變量或觀測的相對重要性等一些先驗信息,賦予變量或觀測不同縮放比例的權重,削弱噪聲變量或干擾因素對分析結果的影響。概率主成分分析[2]模型將概率框架引入主成分分析,保留主成分分析對高維數據降維的特點,同時利用期望最大化算法(EM)對模型參數進行估計[3];主成分得分的概率分布可以直觀體現模型分析結果的不確定性,通過折刀法計算出的模型的載荷置信區間,識別對數據分析影響較大的變量。概率主成分分析雖然在可視化方面凸顯了模型分析結果的不確定性,但模型參數的極大似然估計與主成分一致[4],分析過程并未有效控制噪聲變量對數據分析的影響。

本文在概率主成分分析和權重主成分分析的基礎上提出權重概率主成分分析模型(weighted probabilistic principal component analysis,WPPCA),保留概率主成分分析在可視化方面的優點,借鑒權重主成分分析加權的思想,降低噪聲變量對數據分析的影響,增強數據可視化效果,提供更小差異變量篩選的參考范圍。

模型介紹

1.概率主成分分析模型

概率主成分分析最早由Tipping和Bishop提出[2],在高斯潛變量模型的基礎上將概率框架引入主成分分析。模型表達式如下:

Xi=Wui+μ+εi

Xi=(xi1,…,xip)T代表觀測i的原始變量,ui=(ui1,…,uiq)T代表降維之后與之相對應的潛變量,W是一個p×q的載荷矩陣,μ是一個均數向量。εi代表觀測i的殘差項,p(εi)=MVNp(0,σ2I),I代表單位矩陣。

假定潛變量ui滿足多元高斯分布,即p(ui)=MVNq(0,I),在給定潛變量后觀測變量的條件分布為:p(xi|ui)=MVNp(Wui+μ,σ2I)。由p(ui)和p(xi|ui)可知觀測i的分布為p(xi)=MVNp(μ,WWT+σ2I),根據貝葉斯原理在給定原始觀測后潛變量滿足如下分布:p(ui|xi)=MVNq(M-1WT(xi-μ),σ2M-1),M=WTW+σ2I。概率主成分模型中的參數W,μ和σ2可以通過期望最大化算法進行估計,其最大的優點是不僅通過E(ui)=M-1WT(xi-μ)實現了數據的降維,減小了數據的復雜性,而且通過σ2M-1估計了潛變量的變異范圍。

2.權重主成分分析

在對組學數據分析時,有時存在一些與組學數據相關的先驗信息。權重主成分分析將這些先驗信息轉化為權重,納入數據分析。權重主成分分析通過最小化其損失函數實現數據分析[5-7],其損失函數h如下:

構建權重概率主成分分析模型

在主成分分析中,通過各主成分所對應的載荷向量可以判斷每一原始變量對數據結構的影響,解釋數據特征。在主成分分析中由于各個原始變量所對應的載荷不為零的特點,當數據的變量數遠遠大于觀測數時,大量噪聲變量的存在很難根據各主成分的載荷向量對數據特征進行解釋。在主成分分析的基礎上引入概率模型雖然進一步增強模型結果的解釋能力,放寬模型分析對數據的要求,但在分組方面與主成分分析相比卻沒有實質上的差別,因此本文利用權重主成分思想結合概率主成分模型構建權重概率主成分分析模型(WPPCA模型)。

構建權重概率主成分分析模型的基本思想:在某主成分中,當某一變量的載荷置信區間包含零時,則該變量對此主成分可能是噪聲變量。相反若載荷的置信區間不包含零,則該變量可能為潛在差異變量,根據這些變量的載荷變異信息,對原始變量賦予不同的權重W,X′=XWTL,L1×p=[1,…,1],對X′進行概率主成分分析。該方法既可以保留概率主成分分析在可視化方面的優點,減弱噪聲變量對數據結構特征的影響,增強數據可視化效果,同時也為差異變量提供了一個較小的參考范圍。

1.權重的確定

關于權重的選擇,對于載荷置信區間不包括零的變量,為了加強其對數據分析的作用,按載荷變異信息利用程度賦予不同的權重[1]:

方法(1):Wj=SV(Wj)-1+1。

方法(3):Wj=lnSV(Wj)-1+1。

方法(1)直接利用載荷變異系數的倒數對變量進行加權;方法(2)采用變異系數倒數的平方根加權;方法(3)采用變異系數倒數的自然對數加權。對于載荷置信區間包括零的變量,為了弱化噪聲變量對數據結構的影響,對其施加的權重為1/max(Wj)。

2.折刀法抽樣對參數置信區間的估計

模擬實驗

本研究通過各個權重模型在載荷估計和模型預測能力等方面分別進行數據模擬實驗并與PCA對比,選擇最優模型。

模擬實驗數據設置如下:

1.載荷估計

表1 模擬實驗結果:PCA與WPPCA對第一主成分載荷的估計

2.模型預測

表2給出測試樣本方差中位數及其中位完全偏差:WPPCA模型的預測效能優于PCA;三種不同權重的WPPCA模型,方法(1)在各種條件的情況下均優于方法(2)和方法(3),尤其在n

實例應用

本研究選取課題組絕經期婦女骨質疏松8人、非骨質疏松8人,測得其血漿代謝圖譜,每個研究對象包含350個質譜色譜數據。結合實際代謝組學數據,繪制各觀測的前兩個主成分得分散點圖。圖1為PPCA模型前兩個主成分得分的散點圖,數據結構可視化方面不僅保留了主成分分析在不同維度上進行變異的最大化分解的特點,而且提供主成分的變異信息,可以直觀地理解數據模型分析結果的可靠性。PPCA模型的載荷矩陣與得分矩陣的最大期望值與PCA保持一致,在分組方面兩者效果相同,兩組間第一主成分的中心距離為2.87;圖2為WPPCA模型前兩個主成分得分的散點圖,組間分布的中心距離增大,兩組間第一主成分的中心距離為3.87,更加清晰地揭示數據分組情況,同時也縮小參數的置信區間,使對主成分得分的估計更精確。

表2 模擬實驗結果:PCA與WPPCA對模型預測能力的比較

圖1 PPCA的主成分得分圖

圖2 WPPCA的主成分得分圖

通過折刀法估計因子載荷95%的可信區間確定非零載荷,結果顯示在350個變量中有70個變量的第一因子載荷的置信區間不包括零。圖3為繪制變量載荷的頻率圖,選擇因子載荷大于0.8的變量為兩組間潛在差異變量的參考范圍;圖4為所選差異變量第一主成分載荷的均值及95%置信區間;圖5為與之相對應的權重。主成分分析一般只注重前幾個變異信息較大的主成分,根據前幾個主成分中載荷較大的變量對數據進行解釋,忽略了那些載荷較小變量。然而研究發現這些載荷較小的變量可能在圖像分析有重要的意義[11],WPPCA模型對因子載荷變異較小的變量有時賦予較高的權重,見圖5。

圖3 載荷頻率圖

圖4 第一主成分中因子載荷大于0.8的變量的載荷及其置信區間

圖5 第一主成分因子載荷大于0.8的變量的權重

討 論

權重概率主成分分析直接利用折刀抽樣法所獲得變量載荷變異系數的倒數給原始變量賦予不同的權重,一方面有效地控制了噪聲變量對數據分析的影響,減小主成分得分的置信區間,使模型的參數估計更加

穩健;另一方面增強了潛在差異變量對數據結構的影響,使樣本主成分得分的組間距離增大,模型估計的結果更加準確。本研究實際數據中組間距離的增大,驗證模型中權重的選擇、差異變量篩選的合理性。此外,權重概率主成分分析作為一種概率模型能夠與其他模型相結合,增強模型的可拓展性,模型中期望最大化算法在數據含有缺失值情況下也可進行參數估計[3],增強了模型的數據適應性。

主成分分析本質上是觀察變量到潛變量的一種線性投影[12],當這種線性假設不成立,即觀測數據中存在潛在的分類結構時,基于單個權重概率主成分分析所進行的數據分析獲得的可能是虛假數據結構特征,并不能揭示數據中觀測的真正分組情況。如果將幾個權重概率主成分分析模型相結合形成混合權重概率主成分分析模型,在數據分析過程中降低噪聲變量對數據分析影響的同時,實現觀測樣本的確切分組和數據降維,這將是下一步的研究方向。

猜你喜歡
分析模型
一半模型
隱蔽失效適航要求符合性驗證分析
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統及其自動化發展趨勢分析
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
中西醫結合治療抑郁癥100例分析
在線教育與MOOC的比較分析
主站蜘蛛池模板: 欧美性猛交一区二区三区| 人妻夜夜爽天天爽| 国产亚洲一区二区三区在线| 亚洲一区国色天香| 五月婷婷中文字幕| 茄子视频毛片免费观看| 欧美在线国产| 国产极品美女在线播放| 久久无码高潮喷水| 天堂岛国av无码免费无禁网站| 玖玖精品视频在线观看| 欧美日韩国产精品va| 青青草原国产免费av观看| 国产视频a| 一级做a爰片久久免费| 久久99热这里只有精品免费看| 天天色天天操综合网| 亚洲免费播放| 青青草91视频| 午夜限制老子影院888| 国产主播一区二区三区| 黄色网页在线播放| 国产一区二区福利| 国产精品2| 欧美午夜在线视频| 国产91丝袜在线观看| www.99在线观看| 亚洲欧洲国产成人综合不卡| 欧美亚洲国产日韩电影在线| 国产黑丝视频在线观看| 国产99视频精品免费视频7| 欧美怡红院视频一区二区三区| 亚洲性影院| 日本人真淫视频一区二区三区| 亚洲性视频网站| 国产裸舞福利在线视频合集| 亚洲三级视频在线观看| 无套av在线| 97国产精品视频人人做人人爱| 免费人欧美成又黄又爽的视频| 欧美日韩激情在线| 67194在线午夜亚洲| 国产又色又刺激高潮免费看| 伊人天堂网| 色婷婷国产精品视频| 国产精品久线在线观看| 毛片网站在线播放| 国产成人久视频免费| 国产综合精品日本亚洲777| 国产精品免费电影| 中文字幕无码av专区久久| 日韩123欧美字幕| 不卡视频国产| 91精品亚洲| 91麻豆精品国产高清在线| 亚洲无码在线午夜电影| 国产精品人人做人人爽人人添| 久久香蕉国产线| 亚洲国产日韩在线观看| 久久精品人人做人人爽97| 狠狠色丁香婷婷| 国产伦精品一区二区三区视频优播| 亚洲Av激情网五月天| 精品丝袜美腿国产一区| 国产真实乱子伦精品视手机观看| 国产亚洲精品97在线观看| 亚洲精选无码久久久| 亚洲色图在线观看| 色亚洲成人| 亚洲综合久久成人AV| 怡红院美国分院一区二区| 波多野结衣国产精品| 国产在线无码一区二区三区| 国产精品一线天| 成人永久免费A∨一级在线播放| h网址在线观看| 久久国产乱子| 精品久久蜜桃| 91国内在线观看| 99久久精品国产自免费| 国产精品亚洲αv天堂无码| 永久在线精品免费视频观看|