999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

線性回歸方法在數據挖掘中的應用和改進

2012-01-07 09:15:04邵鴻翔
統計與決策 2012年14期
關鍵詞:模型

邵鴻翔

(洛陽理工學院 工程實訓中心,河南 洛陽 471023)

0 引言

線性回歸是一種古老類型的技術統計,是重要的也是最有用的挖掘工具之一。線性回歸能夠使挖掘者找到數據中最有價值和最深入的發現,同時,也很容易解釋在被發現的關系上發生了什么。

本質上,線性回歸是一種探索式、驗證性的方式,尋找穿過狀態空間的單獨一條直線以便使這條直線盡可能地靠近空間中的所有點。當狀態空間多于二維時,它不是恰好一條直線。在三維空間中,它是一個面,在多維空間中,它將是二維空間中直線的高緯度模擬。

圖1 典型的二維線性回歸

以二維的狀態空間為例,只要數據很好地聚合至少大致接近于一條直線(如圖1所示),就可以對數據集合進行解釋和預測。因為直線被調整得離所有的點盡可能近,當通過一個已知變量進行預測時,其預測值在狀態空間中應當在直線附近。所以,直線上的點所返回的變量值是一個合理值的近似估計值。

1 傳統線性回歸模型

1.1 一元線性回歸模型

在線性回歸中,最簡單的模型就是一元線性回歸。我們對于x取定一組不完全相同的值x1,x2,…,xn,設Y1,Y2,…,Yn分別是在x1,x2,…,xn處對Y的獨立觀察結果,稱(x1,Y1),(x2,Y2),…,(xn,Yn)是一個樣本,對應的樣本值記為(x1,y1),(x2,y2),…,(xn,yn)。其總體模型可以表示為:

其中,εi是“噪聲”變量,是均值為0,標準差為σ的正態分布隨機變量。設b0和b1是對β0和β1的估計,由統計學知識不難得出,在xi處對Y的回歸估計為:

殘差(誤差)為:

根據最小二乘法可知,最好的回歸直線是選擇b0和b1使得總的誤差(殘差平方和SSR)最小:

由極值原理可解得:

1.2 可轉化為線性回歸的曲線回歸模型

在實際中,常會遇到更為復雜的回歸問題,而不僅僅是簡單的一元線性回歸,但在某些情況下,可以通過適當的變量轉換,將其化為一元線性回歸來處理。

以下是幾種常見的可轉化為一元線性回歸的模型(其中α,β,σ2是與x無關的未知參數):

將原式兩邊取對數得:

令 lnY=Y′,lnα=a,β=b,x=x′,lnε=ε′,可轉化為一元線性模型:

(2)Y=αxβ?ε,lnε~N(0,σ2)

將原式兩邊取對數得:

令lnY=Y′,lnα=a,β=b,lnx=x′,lnε=ε′,可轉化為一元線性模型:

(3)Y=α+βh(x)+ε,ε~N(0,σ2),h(x)是x的已知函數

令α=a,β=b,h(x)=x′,可轉化為一元線性模型:

1.3 多元線性回歸模型

與一元線性回歸模型類似,假設自變量為x1,x2,…,xp(p>1),對應的樣本值記為 (x11,x21,…,xp1,y1),(x12,x22,…,xp2,y2),…,(x1n,x2n,…,xpn,yn)。則多元線性回歸模型可表示為:

設b0,b1,…,bp是對β0,β1,…,βp的估計,則在xi處對Y的回歸估計為:

根據最小二乘法和極值原理可得:

式(13)稱為正規方程組,為了求解的方便,可將式寫成矩陣的形式,為此,引入矩陣:

于是式(13)可以寫成:

其中,XT為X的轉置矩陣。假設(XTX)-1存在,可得:

即可得回歸方程:

2 線性回歸在數據挖掘中的應用

由于線性回歸是一種常用的統計技術,并且被普遍的適用于許多領域,因此提供線性回歸功能的工具有很多。專業的統計軟件SPSS和SAS,數學軟件MATLAB,數據庫軟件SQL Server 2008,辦公軟件Excel,都可以用來進行線性回歸的分析。在此,只介紹比較有代表性的Excel和MATLAB。

2.1 使用Excel進行線性回歸

Excel是微軟辦公套裝軟件的一個重要的組成部分,它可以進行各種數據的處理、統計分析和輔助決策操作,廣泛地應用于管理、統計財經、金融等眾多領域。利用Excel進行線性回歸的優點是,方便、快捷、直觀,挖掘者不需具有編程能力。但是,Excel畢竟不是專業的統計工具,其提供的回歸功能僅局限于二維的狀態空間,且回歸的結果不夠精確。

例1表1中的數據為研究某一化學反應過程中,溫度x(℃)對產品得率Y(%)的影響,測得數據如下:

表1 溫度與產品得率關系表

圖2是利用Excel的散點圖功能,將表1中的數據顯示為散點圖,設置“趨勢線預測/回歸分析類型為線性”,即得出回歸方程及相關系數R的平方(R2越趨近于1表明所得回歸方程越能準確的描述狀態空間)。

圖2 溫度與產品得率散點圖

在Excel中,除了簡單的一元線性回歸模型外,還提供了一些其他的一元回歸模型(如指數、對數、多項式、冪、移動平均等)。

例2表2是1957年美國舊轎車價格的調查資料,今以x表示轎車的使用年數,Y表示相應的平均價格。

表2 轎車使用年數與平均價格關系表

觀測散點圖,可知回歸曲線大致呈指數形式,因此使用Excel中的指數回歸模型求回歸方程(如圖3)。

圖3 轎車使用年數與平均價格散點圖

Excel中所提供的預測/回歸模型僅限于二維空間,但是通過使用一些插件可以進行多元線性回歸估計,如StatCalc插件。

例3這里用改編自Chaterjee,Hadi和Price在大金融機構中評價管理人員的表現的例子來例示多元線性回歸的過程。

表3所示的數據源自一個大金融機構的某個部門的一項對辦公室工作人員調查的例子。因變量是對在該機構的管理者領導一個部門的效率的衡量,所有的因變量和自變量都是由25個雇員按照管理者工作的不同方面進行從1到5的分級。作為結果,對于每個變量的最小值為25,最大值為125。這些分級是對在30個部門,每個部門25個雇員的調查問題的回答。分析目的是探索用調查問卷方式預測部門的效率的可行性,從而避免了直接衡量效率的努力。變量是對調查問題的回答,并描述如下:Y,管理的效率衡量;X1,處理雇員的抱怨;X2,不允許有特權;X3,學習新事物的機會;X4,根據表現提拔;X5,對差的表現過于挑剔;X6,推進更好的工作的進度。

表3 管理效率衡量分析表

使用StatCalc此插件計算得出的具體結果如圖10:

圖4 StaCalc的分析結果

2.2 使用MATLAB進行線性回歸

圖5是對例1進行線性回歸所編寫的代碼。從運行結果可以看出,求出的回歸方程為y=-2.7394+0.4830x,與Excel所得回歸方程基本一致。圖6則是此段代碼運行生成的源數據的散點圖及回歸曲線。

圖5 對例1線性回歸的MATLAB代碼

圖6 MATLAB所得例1的散點圖及回歸曲線

圖7,是對例2進行回歸所編寫的代碼。這里,先將y取對數,求得lny與x的線性回歸方程后,再還原為y與x的指數回歸方程。從運行結果可以看出,求出的曲線回歸方程為y=3514.3e-0.2977x,相關系數R的平方為0.9979,比Excel所得回歸方程更為精確。圖8則是此段代碼運行生成的源數據的散點圖及回歸曲線。

圖7 對例2線性回歸的MATLAB代碼

圖8 MATLAB所得例2的散點圖及回歸曲線

圖9,是使用MATALAB對例3中的數據進行多元線性回歸的代碼及結果。從運行結果可以看出,所得結果比圖4更加精確。

圖9 對例3線性回歸的MATLAB代碼

3 線性回歸算法的改進

3.1 分段線性回歸

圖10,是一狀態空間的散點圖。從該關系圖可以看出,若使用傳統的線性回歸方法,使用一條連線將使得模型表示數據的效果較差。但是,如果使用兩條或多條連線,則模型可以更精確地逼近數據。此時,回歸方程是一種分段函數的形式。分段的線性回歸模型包含2個要素——斷點和回歸方程,兩條連線的相交點是斷點,狀態空間被斷點分割為一個個小的子空間,再依次對每個子空間進行線性回歸。以下是分段線性回歸算法(DLA,Divide Linear Regression)的概要:

圖10 分段線性回歸

在此算法中,Examples是按自變量正序整理過的狀態空間。由上述算法概要不難看出,分段線性回歸算法比普通的線性回歸算法可以更精確的描述狀態空間,而對斷點的尋找則成為了該算法的關鍵所在,斷點的定義越準確,則該算法對狀態空間的描述越準確。一種簡單的方法就是尋找局部極值點,因為局部極值點必定為斷點。對于極值點的尋找,則可以采用爬山算法來實現。

3.2 孤立點

線性回歸本質上可以避免特化過渡,而與特化程度相關的最主要的問題是孤立點的出現。孤立點,是指數據點距離回歸平面很遠,并且在取值范圍的極值附近的點,對結果的影響不均衡。舉個例子,有這樣一組數列:1,2,3,4,5,6,7,8,9,1000。該數列的取值范圍是從1到1000,然而該數列中的數據集中在其中1%的范圍內。數列中的1000很顯然是一個孤立點,因為它孤立于數列中所有的其他值,但并不能說它是誤差或錯誤數據,它甚至可能是完全正確的數據。比如保險索賠,大部分都金額較小,而小部分金額巨大。如果把孤立點一起列入線性回歸的狀態空間里,則肯定會影響最終回歸的結果。

對于孤立點的處理,可以考慮兩種方法。一種方法可以稱之為鄰域查找法(NC,Neighborhood-Check),它是通過鄰域的方法來定義孤立點,當一個數據點在某個半徑的范圍內沒有其他的數據點存在時,可以認為其為孤立點。這種方法,直觀、簡單,但是開銷會很大,而且只能找出孤立點,而不能對其進行處理。

另一種方法可以稱之為等頻率分箱法(ESB,Equivalent Sub-Boxes),它是將狀態空間在觀測值的取值范圍內進行等頻率的分割成若干箱。以上文中的數列為例,假設將其分為100箱,則可分割為1~10、11~20、…、991~1000,100個等范圍的狀態空間,那么只有第一個箱子有9個數據、最后一個箱子有1個數據,其他箱子都是空的。這時再進行線性回歸,只需要面對一組包含9個值的狀態空間,和一個孤立點。但是,此數列若為7、8、9、10、11、12、13、14、15、1000,那么會有3個箱子有數據,且1~10和11~20的箱子中的數據線性相關度是很高的。因此,為了避免上述情況的出現,在分箱之后還應再將線性相關的箱進行合并。以下是該算法的概要:

在此算法中,Examples為狀態空間,k為需要進行分箱的個數,num是判定箱中的數據是否為孤立點的依據。

4 小結

線性回歸只是發現線性關系,其對于數據的異常變動(比如孤立點)很敏感,盡管也有算法的健壯版本可用,但總體說來它們對于波動不太敏感。線性回歸問題對于輸入變量的共線問題消化不良,不能處理缺失數據。此外,線性回歸只是產生解釋,對于數據集結構的很小變化可能高度敏感,而對于增量式的交互作用的敏感性卻很強。

雖然,線性回歸有許多局限性,但是不可否認的是,線性回歸快速并且容易,并且一旦得到對于結果的解釋,會產生許多有用的信息。盡管大多數真實世界環境有明顯的非線性本質,但一個挖掘者在業務數據中所遇到的大多數關系最后是線性的、部分線性的、半線性的,或者是可線性化的。因此,在數據挖掘領域,線性回歸始終占有著重要地位。

[1]DORIAN PYLE.業務建模與數據挖掘[M].楊冬青,馬秀莉,唐世渭,譯.北京:機械工業出版社,2005.

[2]盛驟,謝式千,潘承毅.概率論與數理統計[M].北京:高等教育出版社,2005.

[3]BERNARD W.TAYLOR III.數據、模型與決策[M].侯文華,譯.北京:機械工業出版社,2008.

[4]華德宏,劉 剛,蘭家隆.一種改進的一元線性回歸算法[J].現代電子技術,2006,7:63-68.

[5]PART-ENANDER,E.,Sjoberg,A..MATLAB 5手冊[M].王艷清等譯.北京:機械工業出版社,2000.

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 欧美日韩免费在线视频| 久久综合丝袜长腿丝袜| 91九色最新地址| 国产精品页| 日本高清成本人视频一区| 性欧美精品xxxx| 亚洲人成高清| 国产视频 第一页| 久久这里只有精品66| 欧美人与性动交a欧美精品| 一区二区日韩国产精久久| 久久国产精品影院| 日韩精品一区二区三区swag| 97av视频在线观看| 色爽网免费视频| 热九九精品| 在线免费无码视频| 国产人免费人成免费视频| 欧美国产日本高清不卡| 中文字幕伦视频| 欧美一级片在线| 国产亚洲欧美在线视频| 日韩精品专区免费无码aⅴ| 毛片三级在线观看| 日韩免费成人| 91无码视频在线观看| 日本三区视频| 久久久久国产精品熟女影院| 国产黄网站在线观看| 精品国产女同疯狂摩擦2| 免费在线a视频| www.精品国产| 久久国产黑丝袜视频| 97久久免费视频| 国产婬乱a一级毛片多女| 欧美在线视频不卡第一页| 久久99国产综合精品女同| 在线99视频| 婷婷色中文网| 激情無極限的亚洲一区免费| 久久精品中文无码资源站| 色哟哟精品无码网站在线播放视频| 中文字幕 91| a在线亚洲男人的天堂试看| 成人精品亚洲| 日本一区高清| 区国产精品搜索视频| 亚洲三级网站| 国产97区一区二区三区无码| 免费看av在线网站网址| 国产精品hd在线播放| 亚洲综合色婷婷| 91探花国产综合在线精品| 欧美啪啪精品| 欧美一区二区福利视频| 亚洲系列中文字幕一区二区| 久久熟女AV| 亚洲一区二区黄色| 亚洲第一极品精品无码| 欧美精品1区| 亚洲免费毛片| 毛片免费试看| 国产女人在线| 色爽网免费视频| 国产精品部在线观看| 日a本亚洲中文在线观看| 狼友视频国产精品首页| 亚洲精品免费网站| 亚洲一本大道在线| 亚洲视频影院| 日本色综合网| 久久99精品久久久大学生| 欧美三級片黃色三級片黃色1| 538国产视频| 日韩午夜福利在线观看| 国产精品美乳| 国产素人在线| 伊人久久大香线蕉成人综合网| 亚洲欧州色色免费AV| 综合天天色| 亚洲av无码人妻| www.99精品视频在线播放|