999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多次交叉驗證對PLSDA模型的影響研究*

2017-03-09 08:18:00哈爾濱醫科大學公共衛生學院衛生統計學教研室150081
中國衛生統計 2017年1期
關鍵詞:模型

哈爾濱醫科大學公共衛生學院衛生統計學教研室(150081)

曲思楊 張秋菊 王文佶 謝 彪 孫 琳 高 兵 劉美娜△

多次交叉驗證對PLSDA模型的影響研究*

哈爾濱醫科大學公共衛生學院衛生統計學教研室(150081)

曲思楊 張秋菊 王文佶 謝 彪 孫 琳 高 兵 劉美娜△

目的 比較一次交叉驗證和多次交叉驗證對PLSDA最優模型的影響,探討在個體正確分組和少數個體錯分時,多次交叉驗證對PLSDA最優模型穩定性的影響。方法 打亂數據集中個體順序進行多次交叉驗證,通過一次交叉驗證和多次交叉驗證的方法對模擬數據和真實數據進行分析,使用成分數和MSEP等參數值來評價模型變異性和穩定性。結果 模擬數據結果,僅進行1次交叉驗證結果成分數為3,MSEP值為0.3792;在不打亂數據標簽時,5000次交叉驗證結果中,成分數范圍是2~6,MSEP值的范圍0.2569~0.5794;打亂5%的標簽時,5000次交叉驗證結果中,成分數范圍是1~8,MSEP值的范圍0.2061~0.6463;真實數據結果,進行1次交叉驗證結果成分數為4,MSEP值為0.1376;10000次交叉驗證成分數范圍是4~10,MSEP范圍是0.0802~0.3761。結論 一次交叉驗證結果不穩定,在應用PLSDA建模時,多次交叉驗證在少量個體錯分時能夠獲得穩定模型,建議使用多次交叉驗證確保PLSDA模型穩定性。

交叉驗證 PLSDA 高維數據

偏最小二乘判別分析(partial least squares discriminant analysis,PLSDA)在高維數據中應用廣泛,成為標準的高維數據分析方法,通過所建的模型對新的個體進行分類預測,模型的優度影響預測的準確性[1-2]。評價模型預測能力的可靠方法是應用外部數據驗證,但對于小樣本的高維數據由于樣本量的限制無法進行外部數據驗證,因此采用交叉驗證的方法來評價PLSDA模型[3-5]。在進行交叉驗證的過程中常規方法是只進行一次交叉驗證評價PLSDA模型[6],但有研究證明對于同一組數據,當交叉驗證中訓練集和測試集的個體組成發生變化時,PLSDA模型也隨之發生變化,一次交叉驗證結果存在偶然[7]。本研究利用改進的交叉驗證方法,打亂個體分組進行多次交叉驗證并應用于PLSDA,避免一次交叉驗證結果帶來的偶然性,使PLSDA模型更加穩定。本文使用成分數和預測均方誤差評價PLSDA模型。成分數表示PLSDA模型中主成分個數,說明模型的復雜程度。預測均方誤差(mean squared error of prediction,MSEP)可評價模型的預測能力,MSEP值越小,模型的預測值與真實值相差越小,說明模型預測能力越好。

方法介紹

1.一次交叉驗證

通過PLSDA方法建模后,評價模型時通常僅進行一次交叉驗證[8]。以7折交叉驗證為例:將整個數據集分成7個子集,其中6份為訓練集,1份為測試集,使用訓練集建立不同主成分數的模型,然后通過所建模型對相應測試集中的個體進行預測,重復此過程,直到每個個體在測試集中僅出現一次,最終將錯誤率最低的模型作為最優模型。

但是,只進行一次交叉驗證而確定的最優模型存在偶然性,結果并不穩定。如圖1(a)所示,在子集的生成過程中,從數據集中每隔6個個體抽取1個個體放入子集中。第一個子集中由1、8、15、…個體組成,第二個子集中由2、9、16、…個體組成,以此類推。根據每個子集構成的方式,當打亂數據集中個體順序時,每個子集的組成也發生改變(圖1b)。若用打亂個體分組后的子集重新擬合模型,所得最優模型成分數以及模型參數如MSEP(預測均方誤差)等均會發生變化,最優模型因打亂數據集中個體順序而發生改變[9]。

圖1 原始數據的交叉驗證法個體組成(a)和 打亂數據集順序的交叉驗證法個體組成(b)

2.多次交叉驗證

如果多次打亂個體分組,進行多次交叉驗證,就可得到多個最優模型,而出現頻率最高的模型即可作為最優模型。仍以7折交叉驗證為例:首先,根據上文中的方法將數據分為7份,進行一次交叉驗證;然后,打亂數據集中個體順序重新擬合模型進行交叉驗證;不斷打亂數據集中個體順序,進行多次交叉驗證,直至交叉驗證結果參數范圍趨于穩定。基于以上所述可以得到多次交叉驗證模擬實驗結果,見圖2~3,最優模型應為成分數為4且對應MSEP值最穩定的模型。

圖2 多次交叉驗證后主成分數分布圖

圖3 多次交叉驗證后MSEP值分布圖

本研究通過模擬數據和實際數據,比較一次交叉驗證和多次交叉驗證結果,實現對于同一組數據,進行多次交叉驗證可以得到最穩定且最優預測模型。

結 果

1.模擬實驗結果

模擬數據:模擬產生變量數均為10、樣本量均為20的A、B兩組數據,A、B兩組中任意兩變量間的相關系數設為ρ=0.5,且兩數據集中各變量取值不同。另模擬產生樣本量為40、變量數為400的C組數據,服從N(2,1)的正態分布,并將C組數據與A、B兩組差異變量數據合并為模擬數據集(如圖4所示)。為了模擬在收集的病例組和對照組數據分組有誤的情況,在合并數據后打亂不同比例(d%=0、5)的數據標簽,共產生2組不同的模擬數據。

圖4 模擬實驗數據結構示意圖

模擬方法:將以上2組模擬數據擬合PLSDA模型,交叉驗證時分別進行1次和多次交叉驗證,觀察不同交叉驗證結果的成分數和MSEP值等參數。

由表1可知:隨著交叉驗證次數增加,在模擬實驗次數為5000時,MSEP值范圍增大并趨于穩定,因此本研究模擬實驗均使用5000次交叉驗證。模擬實驗結果:對模擬數據進行5000次交叉驗證,可以得到5000個最優模型。由表2可知:①僅進行1次交叉驗證結果成分數為3,MSEP值為0.3792;②在不打亂數據標簽時,5000次交叉驗證結果中,成分數范圍是2~6,MSEP值的范圍0.2569~0.5794;③打亂5%的分組標簽后,最大成分數由6增加到8,MSEP值的范圍擴大為0.2061~0.6463;由表3可知:隨著打亂標簽的比例增大,MSEP值范圍增大。

表1 不同交叉驗證次數的成分數和MSEP范圍比較

表2 打亂不同比率標簽1次和5000次交叉驗證結果

表3 打亂不同比率標簽進行多次交叉驗證的結果比較

2.實際數據驗證

數據來源:本研究中使用真實數據,病例組為患有過敏性紫癜兒童患者57例,對照組是來自同一醫院就診的非過敏兒童患者57例,收集研究對象抗凝血血漿,經過UPLC-TOF/MS聯用儀器檢測分析獲得代謝組學檢測數據,經數據預處理后獲得824個變量。以此數據為實例驗證數據集。

對以上代謝組學數據使用PLSDA方法建模,交叉驗證時進行1次和多次交叉驗證,根據表4可以確定10000次交叉驗證情況結果穩定,因此對于實際數據分析選擇10000次交叉驗證,比較1次和10000次交叉驗證結果的成分數和MSEP值等參數。結果如表5所示,進行1次交叉驗證結果成分數為4,MSEP值為0.1376;10000次交叉驗證成分數范圍是4~10,成分數6出現次數最多;MSEP范圍是0.0802~0.3761,且出現次數最多的值是0.2104。將10000次交叉驗證結果中參數頻數最大的模型即成分數是6、MSEP值是0.2104的模型作為最優模型,可提高最優模型的穩定性。

表4 不同交叉驗證次數的成分數和MSEP范圍比較

表5 1次交叉驗證和5000次交叉驗證模型參數比較

討 論

交叉驗證是評價PLSDA模型的主要方法,通常情況下交叉驗證僅進行1次[10],但由于交叉驗證時數據集中的個體被隨機分為訓練集和測試集,就同一組數據若打亂個體分組進行2次交叉驗證時會得到不同的結果,1次交叉驗證存在偶然性[11]。本研究將多次交叉驗證法應用于PLSDA中,使模型參數在一個范圍內趨于穩定,將參數出現次數最多的模型作為最優模型,為后續模型預測提供可靠依據[12]。

多次交叉驗證本質上是由多個1次交叉驗證組成,根據模擬實驗結果,5000次交叉驗證得到的5000個最優模型的成分數和MSEP值存在較大差異,因此其中1次交叉驗證結果不具有代表性,不能將5000次交叉驗證中的任意1次結果作為最終結果,1次交叉驗證得到的最優模型不穩定。進行多次交叉驗證能夠使多個模型的成分數和MSEP值等參數在某一范圍內穩定。穩定的參數范圍讓所有可能的最優模型包含在多次交叉驗證的多個模型中,將成分數和MSEP值頻數最大的模型作為最優模型,此模型是多次交叉驗證得到的多個模型中出現次數最多也是最穩定的模型。本研究中兒童過敏性紫癜診斷的金標準是進行腎穿活檢,大部分家長考慮到腎穿對兒童腎臟的傷害不愿意配合,臨床醫生僅依靠臨床體征和生化指標來診斷,這種情況下會出現少數個體分組有誤。此時,多次交叉驗證結果參數值變異增大,在打亂一定比例的分組標簽的情況下,改變部分個體分組模擬個體錯分,進行多次交叉驗證可以確定最優模型。

研究表明在高維數據中,5%的個體出現分組有誤時,多次交叉驗證仍然可以得到穩定可靠的模型,更多的個體出現錯分時多次交叉驗證能否得到穩定的模型有待進一步研究。

[1]蔣紅衛,夏結來,李園,等.偏最小二乘判別分析在基因微陣列分型中的應用.中國衛生統計,2007,24(4):372-374.

[2]蔣紅衛,夏結來,張春霞,等.核偏最小二乘回歸及其在醫學中的應用.中國衛生統計,2007,24(3):239-242.

[3]Anderssen E,Dyrstad K,Westad F,et al.Reducing over-optimism in variable selection by cross-model validation.Chemometrics and intelligent laboratory systems,2006,84(1):69-74.

[4]Schaffer C.Selecting a classification method by cross-validation.Mach Learn,1993,13(1):135-143.

[5]Dai Q.A competitive ensemble pruning approach based on cross-validation technique.Knowl Based Syst,2013,37(2):394-414.

[6]Westerhuis JA,Hoefsloot HCJ,Smit S,et al.Assessment of PLSDA cross validation.Metabolomics,2008,4(1):81-89.

[7]Triba MN,Le Moyec L,Amathieu R,et al.PLS/OPLS models in metabolomics:the impact of permutation of dataset rows on the K-fold cross-validation quality parameters.Mol Biosyst,2015,11(1):13-19.

[8]Barker M,Rayens W.Partial least squares for discrimination.J Chemom,2003,17(3):166-173.

[9]Stone M.Cross-validatory choice and assessment of statistical predictions.Journal of the royal statistical society.Series B(Methodological),1974,36(2):111-147.

[10]Szymańska,Saccenti E,Smilde AK,et al.Double-check:validation of diagnostic statistics for PLS-DA models in metabolomics studies.Metabolomics,2012,8(1):3-16.

[11]Kohavi R.A study of cross-validation and bootstrap for accuracy estimation and model selection.Appears in the International Joint Conference on Artificial Intellignece(IJCAI),1995.

[12]Hall P,Racine J,Li Q.Cross-validation and the estimation of conditional probability densities.J Am Stat Assoc,2004,9(2):115-126.

(責任編輯:郭海強)

Research of the Effect of Multiple Cross-validation on PLSDA Model

Qu Siyang,Zhang Qiuju,Wang Wenji,et al.

(DepartmentofBiostatistics,HarbinMedicalUniversity(150081),Harbin)

Objective To compare the effect of one cross-validation and multiple cross-validations on PLSDA optimal model and discuss the effect of multiple cross-validations on stability of the optimal model when a few individuals are wrong grouped and when all individuals are right grouped,respectively. Methods The order of individuals in one dataset was disorganized to perform multiple cross-validations.Simulative data and real data were analyzed using one cross-validation and multiple cross-validations.The variation and stability of the models were tested using parameters like principal component number and MSEP. Results For simulative data,the principal component number of one cross-validation is 3 and MSEP is 0.3792;for result of 5000 cross-validations when the data is not disordered,the range of principal component number is 2~6 and the range of MSEP is 0.2569~0.5794;for result of 5000 cross-validations when the data is 5% disordered,the range of principal component number is 1~8 and the range of MSEP is 0.2061~0.6463;for result of 10000 times cross-validation of real data,the range of principal component number is 4~10 and the range of MSEP is 0.0802~0.3761.Conclusion PLSDA models built by one cross-validation are not stable whereas multiple cross-validations can help build PLSDA models more stably when a few individuals are wrong grouped.So multiple cross-validation is recommended to ensure the stability of PLSDA model.

Cross validation;PLSDA;High dimensional data

黑龍江省自然基金重點項目(ZD201314);國家自然基金(81502889)

△通信作者:劉美娜,E-mail:liumeina369@163.com

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产91透明丝袜美腿在线| 国产99视频精品免费观看9e| 久久国产香蕉| 亚洲欧洲免费视频| 无遮挡一级毛片呦女视频| 国产亚洲视频在线观看| 欧美国产在线一区| 99热这里只有精品免费国产| 美女一级免费毛片| 精品1区2区3区| 欧美97欧美综合色伦图| 91亚洲精选| 国产欧美高清| 在线观看精品国产入口| 国产91高清视频| 老司机久久精品视频| 2020最新国产精品视频| 国产精品毛片一区视频播| 四虎影视库国产精品一区| 青青草原国产av福利网站| 老司机精品一区在线视频| 国产99视频精品免费视频7| 麻豆国产精品一二三在线观看| 伊人蕉久影院| 亚洲欧美另类中文字幕| 伊人国产无码高清视频| 久久婷婷综合色一区二区| 中文字幕久久波多野结衣 | 在线观看网站国产| 久久精品中文字幕少妇| 免费观看成人久久网免费观看| 57pao国产成视频免费播放| 2021国产乱人伦在线播放| 99久久精品国产综合婷婷| 亚洲精品色AV无码看| 女人av社区男人的天堂| 欧美一级特黄aaaaaa在线看片| 在线播放国产99re| 天堂av综合网| 88av在线看| 国产精品永久久久久| 国产黄色爱视频| 国产精品爽爽va在线无码观看| 欧美一区二区三区不卡免费| 亚洲人成影院在线观看| 在线精品自拍| aⅴ免费在线观看| 不卡视频国产| 亚洲欧洲日韩国产综合在线二区| 国产精品一区在线观看你懂的| 全裸无码专区| 国产乱论视频| 久久动漫精品| 国产精品自在拍首页视频8| 波多野结衣二区| 狠狠色噜噜狠狠狠狠色综合久| 无码'专区第一页| 婷婷色中文网| 99精品视频在线观看免费播放 | AV不卡在线永久免费观看| 一本一道波多野结衣av黑人在线| 不卡的在线视频免费观看| 欧美区一区| 亚洲欧美成人在线视频| 丁香五月婷婷激情基地| 青草91视频免费观看| 91免费在线看| 99久久国产综合精品2020| 亚洲精选无码久久久| 亚洲三级网站| 五月天香蕉视频国产亚| 国产免费久久精品99re不卡| 免费人成视网站在线不卡 | 免费高清毛片| 中文字幕日韩久久综合影院| 久久精品国产999大香线焦| 丁香亚洲综合五月天婷婷| 香蕉eeww99国产精选播放| 亚洲精品另类| 国产黄色爱视频| 精品成人一区二区| 日韩小视频网站hq|