匡后權,吉松濤,曾武佳
(1.四川教育學院,成都 610041;2.西南財經大學,成都 610074;3.四川大學 經濟學院,成都 610064)
基于主成分BP神經網絡的西部服務業產值預測
匡后權1,吉松濤2,曾武佳3
(1.四川教育學院,成都 610041;2.西南財經大學,成都 610074;3.四川大學 經濟學院,成都 610064)
文章采用主成分分析和BP神經網絡相結合的方法,采用的1978~2005年服務業相關數據和服務業產值為訓練數據,通過BP神經網絡建立主成分到服務業產值之間的映射關系。將2006~2007數據作為仿真預測數據,進行樣本仿真。驗證結果表明:文章采用的方法可以較為準確地擬合原始樣本,有較高的預測精度,可以對西部服務業產值進行較為準確的預測。此方法具有一定的理論和現實意義。
主成分;BP神經網絡;產值預測
服務業是繼農業、工業之后興旺發達起來的產業,西部12個省、市(區)現代服務業多變量大樣本的數據為研究提供了豐富的信息,同時許多變量之間可能存在相關性增加了問題分析的復雜性,給分析帶來不便。若對12個省市區5個指標進行綜合分析比較困難,為了解決輸入變量過多的問題,文章提出了采用主成分BP神經網絡的預測方法,減少變量數,利用降維的方法把多個指標轉換成較少的幾個互不相關的綜合指標,從而使得研究變得簡單。再用個數較少的輸入變量作為BP神經網絡的輸入進行預測。
主成分分析法是將西部服務業產值相關的影響因素指標重新生成一組互不相關、信息不重疊的幾個綜合指標,綜合指標能最大限度地反映所有影響因素指標的信息。人工神經網絡(ANN),是由大量的神經處理單元廣泛的相互聯結而形成的復雜網絡,用來模擬腦神經系統的結構和功能。它是人腦神經的簡化、抽象和模擬。人工神經網絡具有人腦功能的基本特征即學習,記憶和歸納能力。反向傳播模型也稱BP模型,是一種用于前向多層神經網絡的反向傳播學習算法,由D.Rumelhat和MeClelland于1985年提出。它之所以是一種學習方法,就是因為用它可以對組成前向多層網絡的各人工神經元之間的連接權值進行不斷修改,從而使該前向多層網絡能夠將輸入它的信息變換成所期望的輸出信息。所以將其稱作為反向學習算法,是因為在修改各人工神經元的連接權值時,所依據的是該網絡的實際輸出與期望的輸出之差。將這一差值反向一層一層的向回傳播,來決定連接權值的修改。目前BP算法是研究最多的網絡形式之一,是前向網絡得以廣泛應用的基礎。它包含輸入層、隱層、輸出層,隱層可以為一層或多層。
西部現代服務業產值預測的實質就是對西部服務業既有的數據進行分類和識別,或根據現有的服務業指標的相關值,通過一定的推理,推斷出現代服務業的產值。由于神經網絡具有處理復雜模式及進行聯想,推測和記憶的功能,因而它非常適合應用于服務產值同服務業產值的相關指標值之間的關聯分析。
采用綜合性與科學性相結合,絕對數指標與相對數指標相結合的原則,同時考慮數據的可獲性,選取了與服務業產值相關的5個指標,包括GDP產值、城鎮化水平、服務業就業人口、工業總產值、居民總人口。
廣義的現代服務業稱為第三產業,本文在統計上,采用的是廣義現代服務業的概念,本文統計現代服務業包括的主要行業有:交通運輸、倉儲和郵政業,信息傳輸、計算機服務和軟件業,批發和零售業,住宿和餐飲業,金融業,房地產業,租賃和商務現代服務業,科學研究、技術服務和地質勘查業,水利、環境和公共設施管理業,居民服務和其他現代服務業,教育,衛生、社會保障和社會福利業,文化、體育和娛樂業,公共管理和社會組織等行業。以上指標的原始數據均來源于新中國55年統計資料匯編,中國統計年鑒2006~2008年,各個省市統計年鑒,城鎮化水平采用的指標是城鎮人口除以總人口得到城鎮化率。
本文運用SPSS軟件,將5個指標集成綜合變量,將西部各省市的原始指標數據帶入SPSS軟件進行主成分分析。由于原始指標數據計量單位不同,表現形式不一樣,不能直接進行比較,SPSS軟件將對各省份指標數據自動進行標準化處理,以消除對評價結果的影響。經過主成分分析,按照特征根大于1的原則,選取了2個主成分,其累計方差貢獻率達87.938%,這2個主成分代替原來所有指標來描述現代服務業發展水平有87.938%的可靠性。代表了絕大部分信息,可以明顯反映西部各省市現代服務業的發展水平。各主成分特征根和方差貢獻率見表1,其中主成分權重是各主成分貢獻率在累計方差貢獻率中所占的份額。

表1 特征值、貢獻率和累計貢獻率

表2 主成分得分系數矩陣

表3 主成分及服務業產值歸一化數據



表4 預測效果
各個主成分的系數等于各個主成分的初始載荷量(見表2),由此可以得到2個主成分的表達式:

在所有主成分中,第一主成分Y1權重最大,為66.233%,是最重要的影響因子。該主成分中在GDP產值、服務業就業人口、工業總產值、居民總人口的系數較大,的載荷系數均在0.7以上,顯著地反映了這幾個指標的信息。
第二主成分權重為21.705%,是次重要的影響因子。該主成分Y2與城鎮化水平相關性最強,絕對指標的載荷系數在0.9以上,第一主成分所反應的信息進行了補充和修正。模型中顯著地反映了現代服務業發展水平中的速度因素。主成分Y1、主成分Y2主要涵蓋所有變量的信息。
下面建立的兩個主成分到產量之間的BP網絡映射關系。根據表2,我們可以計算出主成分的得分矩陣,連同產量數據進行歸一化后的數據見表3。
文章采用的1978~2005年服務業相關數據為訓練數據,2006~2007數據作為仿真預測數據,通過BP神經網絡建立主成分1、主成分2到服務業產值之間的映射關系。
在matlab中調用newff函數,建立一個3個輸入結點,1個隱層、5個隱含層結點、1個輸入結點的BP網絡。隱含層采用‘tansig’函數,輸出層采用‘purelin’函數。訓練函數選擇引入動量因子的學習算法'traingdm',精度設置為0.05。程序中采用的連接權值和閥值如ABCD所示。其中,aij表示第j個輸入層到第i個隱含層的連接權值,bj表示第j個隱含的閾值,cj表示第j個隱含層到輸出層的連接權值,D為輸出層的閾值。


從圖1可以看出,當網絡訓練接近3000點時,神經網絡已經趨向于收斂。MSE已達到0.01。到6000步時,MSE達到0.008,已經基本收斂。樣本仿真圖如圖2所示。
從圖2結果可以看出,整個預測值與實際值擬合結果非常吻合。第29、30個樣本點是對2006、2007年進行預測的結果。表4分析數據,其絕對誤差分別為204.44和-109.1。相對誤差分別只有1.3%和0.6%,可以看出其構造的神經網絡具有較好的仿真預測性能。
采用主成分BP神經網絡方法可以準確地擬合原始樣本,有較高的預測精度,針對服務業產值相關的指標,可以得到服務業產值,尤其是在服務業相關產值具有非線性、波動性、不確定性和復雜性的特征,此方法具有其他預測方法無法相比的優勢,可以根據以上網絡模型,分析服務業產值的相關數據,可以對服務業產出進行預測,具有較為重要的理論和現實意義。
[1]李江帆.中國第三產業發展研究[M].北京:人民出版社,2005.
[2]盧紋岱.SPSS for Windows統計分析[M].北京:電子工業出版社.2007.
[3]趙惠芳,王沖,閆安,徐晟.中部省份現代服務業發展水平評價[J].統計與決策,2007,(21).
[4]周晶晶,賀勇,諸克軍.基于主成分BP神經網絡的油田產量預測研究[J].統計與決策,2008,(13).
[5]廖恩華.BP網絡在發動機故障診斷中的應用研究[J].技術與管理論壇,2006,(4).
F224.33
A
1002-6487(2011)11-0100-02
四川循環經濟研究中心資助項目(XHJJ-15)
匡后權(1978-),女,重慶奉節人,博士,講師,研究方向:區域經濟發展。
(責任編輯/浩 天)