999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多區塊偏最小二乘回歸及在環境-食品重金屬遷移中的應用*

2015-03-09 06:52:10蔣紅衛張磊尹
中國衛生統計 2015年1期
關鍵詞:水平模型

蔣紅衛張 磊尹 平

多區塊偏最小二乘回歸及在環境-食品重金屬遷移中的應用*

蔣紅衛1△張 磊2尹 平1

目的探討處理復雜數據存在多個變量區塊情形的一種統計分析方法:多區塊偏最小二乘回歸(MBPLSR),并將其用于環境-食品重金屬遷移研究之中。方法將重金屬鎘從環境向大米遷移的影響因素,劃分為土壤理化特性與各態鎘含量兩類,運用MB-PLSR建立環境-大米鎘轉移模型,并且與傳統偏最小二乘回歸(PLSR)進行性能比較。結果MB-PLSR較好地利用變量區塊的先驗信息,使得其無論是在數據擬合、預測性能方面,還是在維度壓縮方面,均優于PLSR。結論MB-PLSR適用于具有變量區塊的復雜數據建模,具有較好的信息綜合和解釋能力。

變量區塊 成分 重金屬 偏最小二乘回歸

在許多大型研究中,所需要處理的變量數目達到幾十個,甚至成百上千個,通常可以按照某種內涵的相似性,將其劃分為多個變量類屬(變量區塊,variable block)。一般而言,與不同類屬的變量相比,相同類屬的變量之間往往具有更強的相關性與特定的專業意義,便于信息提取與模型解釋[1]。例如,大型流行病學調查中,常將危險因素劃分為多個類屬(區塊),如,人口學指標類、心理行為指標類、生理生化指標類、社會經濟指標類等,以期在分析各因素對健康影響的強度基礎上,進一步分析各變量類屬對健康影響的重要程度。又如,食品重金屬污染研究中,常將影響因素劃分為土壤重金屬指標類、土壤理化指標類、污染排放指標類等,需要明確各因素對重金屬從環境向食品遷移的作用。若直接運用傳統的統計分析方法,就會導致模型極為龐雜,參數估計不穩定,結果難以分析與解釋等問題。目前常用的處理方法主要有兩類,一是變量篩選,二是降維。研究表明[2-3],通過變量篩選,大量解釋變量無法按照其在所屬區塊中的重要性予以納入或剔除,容易形成錯誤的統計模型,也無法確定各變量區塊的作用,導致對結果虛假的分析與解釋。因而,針對具有多變量區塊的復雜數據,更偏向于使用降維方法,如多區塊主成分分析,多區塊偏最小二乘回歸(multi-block partial least squares regression,MB-PLSR)等。

作為一種相當高效的第二代統計分析方法,偏最小二乘回歸(partial least squares regression,PLSR)集多元線性回歸、主成份分析和典則相關分析于一體,同時實現了回歸建模、降維與兩組變量相關性分析[4]。它采用非線性迭代偏最小二乘算法(nonlinear iterative partial least squares,NIPALS),建立解釋潛變量與反應潛變量的回歸關系。研究表明[4],PLS可以有效地降低模型的復雜度,克服了回歸分析中多重共線性、高維低樣本量等問題,適用于弱理論領域和數據的軟建模。由于不同區塊的影響因素有著本質差別,因而,必須在一個統一的統計框架下,予以分開處理[5]。針對復雜數據的變量區塊特性,Wangen與Kowalski[3,6]提出了多區塊偏最小二乘回歸。該方法不僅繼承了PLSR的優良性質,而且適用于處理變量區塊問題,可以更好地解釋來自不同區塊間變量的作用。因此,本文將在引入變量區塊概念的基礎上,較系統地研究多區塊偏最小二乘回歸模型,并用于食品重金屬污染實例分析。

基本理論與算法

1.基本思想

假定存在著B+1個變量區塊,包含反應變量區塊Y,與B個解釋變量區塊Xb,b=1,2,…,B。其中,反應變量區塊Y包含一或多個反應變量,解釋變量區塊Xb包含mb個解釋變量,合并解釋變量X=[X1|X2|…|XB],共含有m=m1+m2+…+mB個解釋變量。所有變量均來自于n個研究個體的觀測。MB-PLSR從每個解釋變量區塊中提取區塊成分,再次從區塊成分中提取解釋變量全局成分,并與反應變量空間成分建立直接的回歸關系,從而,間接建立全部解釋變量與反應變量的回歸關系,其基本思想如圖1所示。

圖1 多區塊數據結構與MB-PLSR思想示意圖

2.基本原理

多區塊偏最小二乘回歸的優化準則如下:

可以證明,反應變量成分u的解為矩陣Y最大特征值所對應的特征向量,區塊成分tb(X)是反應變量成分u在解釋變量區塊Xb的投影。由此可見,MB-PLSR可滿足以下兩個條件:①盡量提取各變量區塊變異信息;②所提取的解釋變量區塊信息能最大限度地解釋反應量的變異信息。

3.基本算法

MB-PLSR在每一步中采用NIPALS,提取各變量區塊成分,并獲得解釋變量全局成分與反應變量成分回歸模型的估計。以下是MB-PLSR算法之一:

第一步,將解釋變量空間X和反應變量空間Y進行標準化變換,令X0=X,Y0=Y。

第二步,指定任意隨機數列,作為反應變量Y的成分u0。

第三步,計算解釋變量區塊Xb第a個成分tab(X)及其權重向量wab(X)。

第四步,計算第a個解釋變量全局成分及其權重wa(T),以及反應變量Y的成分ua與權重向量qa。

第五步,重復第三、四步,直至第a個全局成分ta(T)收斂。

第六步,計算解釋變量X的區塊載荷Pb(X)與回歸系數B。

第七步,計算解釋變量殘差空間Xa+1與反應變量殘差空間Ya+1。

為了衡量解釋變量對反應變量的作用,使用變量投影重要性指標(variable importance of the projection,VIP)來衡量,相關定義見文獻[7]。類似于VIP定義,區塊投影重要性指標(block importance of the projection,BIP)使用全局成分與反應變量的相關系數平方和來定義[3],反映各變量區塊對反應變量的影響程度與重要性。

本文采用SAS9.3完成多區塊偏最小二乘回歸模型的統計分析。

圖2 多區塊偏最小二乘回歸算法圖示

實例分析

重金屬通過不同形態由環境向食品逐步遷移累積,直接威脅食品安全,造成人群健康水平風險[8]。只有構建合理的環境-食品重金屬遷移模型,才能較全面認識重金屬遷移的統計規律[9-10]。本實例的食品重金屬污染數據來自于2008年湖北省天門市環境與食品污染調查的一部分。具體調查方案是,于晚稻成熟期間,在水稻主產區的崗狀平原,采用系統抽樣采集52塊稻田,獲取土壤52份,及其相應的晚稻樣品52份。本次調查變量劃分三個區塊。一是,土壤理化變量區塊,含土壤的酸堿度(pH值)、容重(g/cm3)、有機質(%)、交換性酸度(cmol/kg),分別記為x11,x12,x13,x14;二是,各態鎘變量區塊,包含土壤中總鎘(mg/kg)、有效態鎘(mg/kg)、碳酸鹽態鎘(mg/kg)、有機結合態鎘(mg/kg),分別記為x21,x22,x23,x24;三是,反應變量大米中鎘含量(mg/kg),記為y。其中,各鎘含量均取自然對數。現運用MB-PLSR探討土壤理化特性、各態鎘對大米鎘含量的影響關系。

對原始數據作標準化變換,采用交叉核實法,確定提取2個全局成分(記為t1(T),t2(T)),同時,在土壤理化變量區塊中提取2個區塊成分(記為t11(X),t12(X)),在各態鎘變量區塊中提取2個區塊成分(記為t21(X),t22(X)),構建MB-PLSR模型。

各區塊成分與其相應的解釋變量的關系如下:

其中,t11(X)和t12(X)對土壤理化的解釋程度達到70.2%,成分t11(X)主要反映了酸堿度x11與交換性酸度x14的信息,成分t12(X)突出反映了有機質x13的信息;t21(X)和t22(X)對各態鎘含量的解釋程度達到77.1%,成分t21(X)綜合反映了土壤各態鎘的信息,成分t22(X)重點反映了有效態鎘x22的信息。由此可見,這四個成分分別反映了土壤中酸度水平、有機質水平、總鎘水平與易吸收鎘水平四類信息。

區塊成分與全局成分的關系如下:

其中,t1(T)和t2(T)對反應變量大米鎘的解釋程度達到65.7%,全局成分t1(T)反映了土壤中酸度水平t11(X)、有機質水平t12(X)、總鎘水平t21(X)與易吸收鎘水平t22(X)的綜合信息,且酸度信息與鎘水平呈反向關系,間接表明了原始變量區塊分為土壤理化與各態鎘水平兩區塊的合理性;結合全局成分t1(T)和t2(T)可見,土壤中不同態鎘水平對大米鎘含量影響存在差異,其中,有效態鎘呈正向關系,其他形態鎘的影響尚需進一步明確。

各變量投影重要性指標與載荷,見圖3。

圖3 各解釋變量及所屬區塊與反應變量關系圖

結合圖3a與圖3c可見,大米鎘水平與有效態鎘水平關系最為密切,且呈正向關聯,與酸堿度、交換性酸度關系密切程度次之,且呈負向關聯,與碳酸鹽態鎘和總鎘水平稍呈負向關聯,其關系密切程度較弱;而容重、有機質、有機結合態鎘與大米鎘水平關系不甚密切。由圖3b可見,相對于土壤理化特性而言,土壤中的各態鎘水平對大米鎘水平影響稍強。

為了便于MB-PLSR與傳統PLSR比較,擬從成分數nt、回歸決定系數與預測決定系數三方面來評價兩種方法的優劣。從原始樣本中,按照20%的比例隨機抽取樣本,作為訓練樣本,余下的樣本作為驗證樣本,分別用MB-PLSR和PLSR進行數據擬合與預測,重復100次,取的平均數。之后,與此類似,每次將訓練樣本的比例提高5%,而驗證樣本比例相應降低5%,直至訓練樣本比例達到80%為止。在不同訓練樣本比例下,兩種方法所提取的成分數nt、回歸決定系數與預測決定系數見圖4。

圖4 不同訓練樣本比例下MB-PLSR與PLSR的成分數與模型決定系數

由圖4a可見,MB-PLSR提取的成分數一致地少于PLSR。這表明MB-PLSR可以更有效地壓縮解釋變量空間維度,具有更強的信息綜合能力。由圖4b可見,隨著訓練樣本比例的上升,兩種方法的回歸決定系數呈下降趨勢,預測決定系數則呈上升趨勢,并且回歸決定系數一致地高于預測決定系數。兩種方法相較而言,無論在回歸決定系數方面,或是在預測決定系數方面,MB-PLSR均要優于PLSR。這提示MB-PLSR通過區塊成分的提取,可以更為有效地剔除原始數據中的部分噪聲干擾,具有更好的模型解釋與預測能力。

結 論

本文通過采用多區塊偏最小二乘回歸對食品重金屬污染進行分析,可以發現,MB-PLSR可以在分析各類因素作用的基礎上,較好地確定各變量區塊影響大米重金屬含量的重要性。與傳統的偏最小二乘回歸相比較,MB-PLSR具有更強的信息綜合能力,模型擬合與預測精度也有所提高,并且,可以從變量、區塊、成分三個層面,對結果給予更為清晰、簡便與合理的解釋。

對復雜數據而言,MB-PLSR無需對解釋變量進行篩選,僅需按照相近內涵,事先對解釋變量加以分類,劃分為多個變量區塊。一方面,通過各區塊變量信息的綜合提取,反映相應區塊的內涵意義與潛在結構,以便分析各解釋變量在區塊中的影響程度與重要性;另一方面,通過構建全局成分與反應變量之間的回歸模型,反映各區塊對反應變量的影響程度與重要性,從而,間接地反映各解釋變量對反應變量的影響與作用。可見,MB-PLSR通過利用變量區塊的先驗知識,可以大幅度地降低模型建構的復雜性,更好地符合與利用數據來源的自然結構,進而,達到簡化模型,整體分析的目的。

需要注意的是,MB-PLSR尚存在三個方面的不足。一是,良好的變量區塊必須依賴于堅實的專業理論知識,變量的不良區塊會直接影響到MB-PLSR的分析效果;二是,全局成分的權重向量正交,而各解釋變量區塊成分的權重向量并不正交,這將導致解釋變量區塊的信息提取,存在著部分信息交叉,給在變量層面的解釋帶來一定困難;三是,該方法只能用于構建較簡單的潛結構關系,不適于分析具有更復雜路徑關系的高維數據,此時,需借助結構方程模型、偏最小二乘路徑模型等其他統計分析方法來予以處理。

1.Roover KD,Ceulemans E,Timmerman ME.Modeling differences in the dimensionality of multiblock data by means of clusterwise simultaneous component analysis.Psychometricka,2013,78(4):648-668.

2.Vivien M,Verron T,Sabatier R.Comparing and predicting sensory profiles by NIRS:use of the GOMCIA and GOMCIA-PLS multi-block methods.Journal of Chemometrics,2005,19,162-170.

3.Bougeard S,Qannari E,Lupo C,et al.From multiblock partial least squares to multiblock redundancy analysis,a continuum approach.Informatica,2011,22(1):11-26.

4.Kramer N,Sugiyama M.The Degrees of Freedom of Partial Least Squares Regression.Journal of American Statistics Association,2011,106(1):697-705.

5.Alloway BJ.Heavy Metals in Soils.Glasgow,Chapman&Hall,1995.

6.Wangen LE,Kowalski BR.A multiblock partial least squares algorithm for investigating complex chemical systems.Journal of Chemometrics,1988,3:3-20.

7.蔣紅衛,夏結來,李園,等.偏最小二乘回歸的離群點檢測方法.中國衛生統計,2007,24(8):372-374.

8.蔣定國,李寧,楊杰.2010年我國食品化學污染物風險監測概況、存在問題及建議.中國食品衛生雜志,2012,24(3):259-264.

9.WHO.Food Safety Risk Analysis,Rome.Italy,FAO,2009.

10.劉劍鋒,谷寧,張可慧.土壤重金屬空間分異及遷移研究進展與展望.地理與地理信息科學,2012,28(2):99-103.

(責任編輯:郭海強)

Multiblock Partial Least Squares Regression Model for Environment-Food Heavy Metal Transfer

Jiang Hongwei,Zhang Lei,Yin Ping(Department of Epidemiology and Health Statistics,Tongji College,Huazhong University of Science and Technology(430030),Wuhan)

ObjectiveTo explore multiblock partial least squares regression(MB-PLSR)that deal with multiple variable blocks in complex data,and apply this statistical method to modeling environment-food heavy metal transfer.MethodsThe influence factors of cadmium(Cd)transfer from environment to rice were divided into two blocks:soil physical-chemical variable block and multi-state Cd variable block.MB-PLSR was used for modeling environment-food Cd transfer,and was compared with classical partial least squares regression(PLSR)in their performance.ResultsIn terms of the dimensional reduction,model prediction and interpretation,MB-PLSR is superior to PLSR.ConclusionAs a practical statistical method of soft modeling for handling complex data with multiple variable block structure,MB-PLSR has several technical advantages in information extraction and model interpretability.

Variable block;Component;Heavy metal;Partial least squares regression

*國家自然科學基金項目(81373104);中央高校基本科研業務資助(2012QN241)

1.華中科技大學同濟醫學院公共衛生學院流行病學與衛生統計學系(430030)

2.國家食品安全風險評估中心

△通信作者:蔣紅衛,E-mail:jhwccc@sina.com

猜你喜歡
水平模型
一半模型
張水平作品
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
作家葛水平
火花(2019年12期)2019-12-26 01:00:28
加強上下聯動 提升人大履職水平
人大建設(2019年12期)2019-05-21 02:55:32
3D打印中的模型分割與打包
老虎獻臀
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
做到三到位 提升新水平
中國火炬(2010年8期)2010-07-25 11:34:30
主站蜘蛛池模板: 国产性生交xxxxx免费| 蜜桃视频一区| 欧美激情一区二区三区成人| 色噜噜综合网| 日韩美一区二区| 中文字幕欧美日韩高清| 国内精品久久人妻无码大片高| 亚洲三级电影在线播放| 99九九成人免费视频精品| 国产真实乱了在线播放| 国产精品女主播| 在线观看91香蕉国产免费| 色丁丁毛片在线观看| 亚洲第一综合天堂另类专| 五月天福利视频| jizz在线观看| 五月婷婷亚洲综合| 成人亚洲天堂| 国产综合精品日本亚洲777| 在线观看精品国产入口| 精品自拍视频在线观看| 国产欧美日韩在线在线不卡视频| 亚洲AV无码不卡无码| 日本免费一级视频| 成年人国产网站| 制服无码网站| 国产微拍一区二区三区四区| 任我操在线视频| 免费99精品国产自在现线| 久久久久青草大香线综合精品| 国产无码精品在线| 狂欢视频在线观看不卡| 欧美性色综合网| 好吊色妇女免费视频免费| 色综合网址| 国产亚洲欧美在线视频| 97影院午夜在线观看视频| 91精品国产一区自在线拍| 亚洲a免费| 亚洲熟妇AV日韩熟妇在线| 午夜激情福利视频| 国产精品专区第1页| 91福利免费| 久久黄色视频影| 秋霞午夜国产精品成人片| 亚欧成人无码AV在线播放| 国产精品va| 热久久国产| 欧美精品H在线播放| 久久黄色影院| 666精品国产精品亚洲| 又污又黄又无遮挡网站| 91精品国产自产在线老师啪l| 精品国产免费观看| 亚洲丝袜第一页| 国产精品久久久久久久久久98| 久久永久免费人妻精品| 91亚洲视频下载| 欧美一级高清免费a| 亚洲欧美日韩另类| 国产清纯在线一区二区WWW| 欧美一区二区自偷自拍视频| 色视频久久| 亚洲国产成人精品无码区性色| 中文字幕色在线| 亚洲欧美另类视频| 免费网站成人亚洲| av在线无码浏览| 欧类av怡春院| 国产美女精品人人做人人爽| 国产亚洲欧美日韩在线观看一区二区| 成人亚洲视频| 日韩av高清无码一区二区三区| 久久综合亚洲色一区二区三区 | 国产精品亚洲欧美日韩久久| 久久精品嫩草研究院| 亚洲日韩久久综合中文字幕| 第一页亚洲| 91色爱欧美精品www| 99热国产这里只有精品9九| 亚洲大尺码专区影院| 香蕉蕉亚亚洲aav综合|