王 慧 簡紹勇 李 娟 周文惠
(新余學院 江西新余 338000)
數學建模競賽等與樣本數據相關的問題都需要進行數據的統計預處理,在此過程中,涉及的數據以及變量較多,因此增加了數據處理的復雜程度,在處理時希望把多變量轉換為較少的綜合變量,從而能夠反映出相應的變量信息。而主成分分析、因子分析以及獨立成分分析方法可以處理多變量、大樣本的數據信息,同時能夠進行降維處理,在數學建模競賽當中得到了較為廣泛的應用。因此,對這三種統計分析方法進行研究具有實際的應用意義。
主成分分析法(PCA)就是指通過正交變換,把分量相關的多個變化轉化為分量不相關的綜合變量的過程。其中,被選擇出來的變量叫作主成分,可以對數據的各種指標進行解釋;而綜合變量不僅要能夠反映出原變量的信息,還要保證互不相關。主成分分析法是一種數學變換方法,在變換的過程中,變量的方差是不變的,還要以方差遞減的形式把變換后的綜合變量進行排序。
因子分析法(FA)是主成分分析法的推廣,主要是把原始的變量通過一些公共的因子變量來表示,是一種研究把多個觀測變量轉變為少數的不相關的綜合變量的一種統計分析方法。此種方法主要針對在大量觀測數據當中得到一部分有價值的、難以直接測量的、相對獨立的因子。
獨立成分分析法(ICA)是主成分分析法以及因子分析法的延伸,此種方法應用效果較好,一旦其他的統計方法失效,那么依然可以找出支持觀測數據的內在因子。獨立成分分析法就是在大量的觀測數據當中恢復、分離獨立的數據信息。
主成分分析、因子分析以及獨立成分分析方法都可以處理多變量、大樣本的數據信息,同時能夠進行降維處理,在數學建模競賽當中得到了較為廣泛的應用。
在某年數學建模夏令營當中有如下問題:對水資源風險的主要因子進行識別,對風險帶來的危害進行等級劃分,對不同風險的因子進行控制以便維護社會的和諧與穩定。根據水資源的相關信息,求得影響水資源短缺的主要風險因子,其影響因素包括工業用水、農業用水、氣候條件、人口規模等等,根據已知的數據,利用降維的方式,通過主成分分析法進行研究分析。
首先,將影響因素的數據進行標準化,建立數據的標準化模型。然后對數據進行主成分的計算,再根據累計貢獻率求得主成分因素。根據主成分當中各因子的數據,判斷出影響水資源的主要因素。
在某年全國大學生數學建模競賽當中有如下的問題:根據數據分析重金屬污染的主要原因,究其根本就是求得產生重金屬污染的因子,從而研究其原因,所以在這一問題當中可以用因子分析法。
以生活區域為示例,分析過程為:首先,求得生活區重金屬之間的相關系數矩陣I,根據此矩陣并且利用SPASS 軟件將因子的特征值以及累積貢獻率求出。根據分析可知當因子為6時的累積貢獻率為91%左右,因此可以選6 個成分因子來分析產生社區污染的因素。其次,再對旋轉后因子載荷矩陣進行計算,從而判斷因子對重金屬的影響。
根據最終結果,可以判斷出6 個因子所對應的變量有哪些,同時說明造成生活區污染的主要原因。
在某年全國研究生數學建模競賽當中有如下的問題:按照已知數據,如何根據基因和腫瘤的關系來選擇出優秀的分類因素。我們可以把基因組作為區別正常人和腫瘤患者之間的分類因素,利用獨立成分分析法基于數據進行分析,找出獨立的基因組。
假定基因數據矩陣為1 900 個,均為相互獨立的基因組信號,分析過程為:首先,將基因數據矩陣A 進行中心化處理和白化處理過程。然后隨機生成可逆的歸一化初始矩陣B,并且對初始矩陣進行迭代運算。其次,當迭代完成之后,可以求得相互獨立的基因組矩陣:X=AB。對基因數據矩陣以及求得的相互獨立的基因組矩陣進行分析,從而找出獨立的基因組[1-4]。
本文通過對三種統計分析方法在數學建模中的應用探析,使我們了解到了,多元統計分析方法在數據處理過程中得到了較為廣泛的應用,而主成分分析、因子分析以及獨立成分分析方法作為其基本的數據處理方法,在數學建模當中具有重要的應用。對于大量的數據而言,首先就是要進行降維、去相關等數據預處理過程,所以一定會用到三種統計分析方法當中的一種或者幾種,因此,在具體的應過程中,要根據實際情況選擇合適的分析方法,保證數據處理的正確性。