唐東躍,唐偉靖
(1.浙江省河海測繪院,浙江杭州 310008; 2.浙江省煤炭測繪院,浙江杭州 310021)
整體最小二乘法在非線性擬合中的若干探討
唐東躍1?,唐偉靖2
(1.浙江省河海測繪院,浙江杭州 310008; 2.浙江省煤炭測繪院,浙江杭州 310021)
基于整體最小二乘的思想進行曲線擬合,是整體最小二乘法應用研究的熱點之一,它的基本要求是,在曲線擬合時要顧及因變量與自變量的誤差,它與普通的最小二乘法相比,是以正交距離的范數最小為約束準則。本文先闡述了整體最小二乘法的原理及基本解算法,并對曲線方程進行線性化,使之能夠進行整體最小二乘法求解,最后結合實例說明該方法的可行性和有效性。
整體最小二乘;奇異值分解;最小二乘;非線性回歸
長期以來,測繪工作者經過不斷的研究與實踐,將基于高斯創立的最小二乘理論的經典平差發展成完整的理論體系。在實際工程的測量或實驗數據采集過程中,自變量與因變量都是通過一定觀測手段或儀器得到,觀測值都不可能避免存在誤差,在這種情況下,傳統的最小二乘法就不再適用了,它是有偏的,難以保證估計結果的最優性,而且偏差的協方差也隨著自變量噪聲誤差的作用而增大。鑒于此,本文引入了整體最小二乘回歸問題,它是考慮自變量與因變量同時存在誤差的一種求回歸方程參數解的方法。
整體最小二乘(Total Least Squares,TLS)的基本思想可歸納為:在觀測方程L=Ax中,不僅觀測向量L中存在誤差vL,同時系數矩陣A中也含有誤差vA。此時,可用TLS方法求得參數^x。也就是說,在TLS中,考慮的是矩陣方程的求解。

求解上式整體最小二乘法的最優化準則:

‖?‖F是D的F(Frobenius)范數,求解‖?‖F=min的問題就是整體最小二乘問題。為了得到滿足條件的解,通常采用奇異值分解方法進行解算。
將線性相容方程L=Ax改為:

記增廣矩陣C=[AL],待求增廣矩陣^C=[^A^L],對增廣矩陣C進行奇異值分解:

其中,∑=diag(σ1,σ2,…,σn,σn+1),σ1≥σ2≥…≥σn≥σn+1≥0。因σn+1≠0,增廣矩陣C的秩為n+1,故方程[AL][xT-1]T≈0為矛盾方程,為求得整體最小二乘解,待求的增廣矩陣C的秩應為n。由矩陣定理,矩陣C=[AL]最佳逼近矩陣^C=[^A^L]必然滿足:

整體最小二乘改正量滿足:

其改正量為:

μn+1,vn+1分別為正交矩陣U和V的第n+1列,注意到,整體最小二乘的改正量[EAEL]的秩為1,有下式成立:

則整體最小二乘解可由增廣矩陣右奇異向量的最后一列vn+1得到,即:

2.1 一般方法
設觀測值為x的非線性函數:

假定觀測值x有近似值x0則可將函數式(7)按泰勒級數在點x0處展開為:


這樣,就將非線性函數式(7)化成了線性函數式(10)。
2.2 化曲線回歸為直線回歸的特殊類型
通常利用直線檢驗法或一階表差法檢驗的曲線回歸方程都可以通過變量代換轉為直線回歸方程,這類曲線方程式有以下幾種類型:

顯然,式(12)中的各式都是直線回歸方程。任取式(12)中一個等式作說明,如:

令:

則式(13)可以表示為:

故式(14)就是普通的一元直線方程。
以文獻[3]中139頁算例數據作比較分析,共有15組數據如下表1所示。
首先把樣本觀測數據點使用MATLAB軟件作樣本數據曲線圖,即圖1。由圖1可以看出曲線很像冪函數y=axb,因此取函數類型為y=axb。對等式兩邊取對數可以得到lny=lna+blnx。令y′=lny,x′=lnx,b0=lna,那么轉化后的數據變量值如表2所示。

圖1 樣本觀測數據曲線

樣本觀測值 表1

代換后的變量數據值 表2
方法1是以x′為自變量,考慮變量誤差的情況下得到的曲線方程,方法2是以為自變量,考慮x′變量誤差的情況下得到的曲線方程,比較2個方法,可以看出其解算結果是不一致的。方法3是x′,均存在誤差,建立的方程式為=b0+b的情況下計算結果;方法4也是變量x′,y′均存在誤差,建立的方程為=c0+c的情況下得到的結果,將它換算為統一的表達形式,方法3與方法4的結果完全相同。因此,在非線性回歸的問題中,采用整體最小二乘平差進行解算,其結果也不受方程式的建立方式的影響,得到的曲線方程式是唯一的。表3是4種方法的詳細比較。

四種方法的比較 表3

圖2 三種擬合方法的曲線圖
基于整體最小二乘的思想進行曲線擬合,是整體最小二乘法應用研究的一個熱點之一,它的基本要求是,在曲線擬合時要同時顧及因變量與自變量的誤差,與普通最小二乘法相比,是以正交距離殘差平和最小為約束條件。本章主要介紹了一元非線性函數方程的擬合方法,由圖2可以看出,兩種方法所得到的擬合曲線方程都很接近;但是,普通最小二乘法對自變量選擇不同的擬合方向,曲線方程的擬合結果是不同的。而采用整體最小二乘平差進行解算,其結果也不受方程式的建立方式的影響,得到的曲線方程式是唯一的。
[1] Golub G H,Van Loan C F.An analysis of the total least squares problem[J].SIAM J.Numer Anal 1980,17(6): 883~893
[2] 萬保峰,程新文,歐龍.TLS與LS數據處理方法對比研究[J].城市勘測,2007(4)
[3] 費業泰.誤差原理與數據處理[M].北京:機械工業出版社,2004
[4] 丁克良.整體最小二乘理論及其在測量數據處理中的若干應用研究[D].武漢:中國科學院測量與地球物理研究所,2006
Discussion about Total Least Squares in Nonlinear Fitting
Tang Dongyue1,Tang Weijing2
(1.ZheJiang Surveying Institute of Estuary and Coast,Hangzhou 310008,China;2.ZheJiang Surveying Institute of Coal,Hangzhou 310021,China)
Curve fitting based on total least squares theory is one of the focus of total least squares application research.Its basic requirement is considering the error between dependent variable and independent variable.Comparing with the common least square,it takes the norm minimum of orthogonal distance as constraint criterion.This thesis discusses the principle and basic solution of total least squares,and linearizes curve equation for solution with total least squares.Finally it illustrates the feasibility and validity of this theory with examples.
Total least squares;singular value decomposition;least square;nonlinear regression
2011—01—13
唐東躍(1985—),男,助理工程師,主要從事河口、海岸水下測繪工作。
1672-8262(2011)05-107-03
P207
B