摘 要: 文章從回歸分析基本理論入手,建立了線性回歸理論模型,論述了預(yù)測和控制的基本實(shí)現(xiàn)方法,并利用這一理論對裝備保障人員部分?jǐn)?shù)據(jù)進(jìn)行了初步的分析和預(yù)測。
關(guān)鍵詞: 一元線性回歸 檢驗(yàn) 預(yù)測
隨著科技的不斷發(fā)展,武器裝備復(fù)雜性和高技術(shù)性不斷提高,于是關(guān)于裝備保障信息的海量數(shù)據(jù)出現(xiàn)了,裝備保障人員是海量數(shù)據(jù)中的一部分,文章將對這一數(shù)據(jù)進(jìn)行研究分析。
一、回歸分析的基本理論
變量中最為簡單的是線性相關(guān)關(guān)系,設(shè)x是可控變量,Y是依賴于x的隨機(jī)變量,它們的關(guān)系是Y=α+βx+ε,其中,α、β是常數(shù);ε是誤差項(xiàng),期望值為0的隨機(jī)變量,即E(ε)=0,并且ε服從正態(tài)分布N(0,σ)。x與Y的這種關(guān)系稱為一元線性回歸(模型)。當(dāng)x取回定值時,Y服從正態(tài)分布N(α+βx,σ)。上式兩邊取數(shù)學(xué)期望得:EY=α+βx,若記y=EY,則可改寫為:y=α+βx,稱之為Y對x的回歸直線方程,其中β稱為回歸系數(shù)。
已知變量x,Y的n對試驗(yàn)值(x,y)(i=1,2,…,n),我們用最小二乘法求出α,β的估計值,作離差平方和Q=(y-y)=(y-α-βx),選擇參數(shù)α、β,使Q達(dá)到最小,即:
Q=(y-α-βx)=min
為此,令Q分別對α、β的兩個一階偏導(dǎo)數(shù)等于零,即:
因?yàn)榉匠探M解到的不是α,β的真值,而是它們的估計值,所以可把方程組中的α,β分別用估計值、代替,得到:
=或=,
以及=-=+x,稱之為Y對x的經(jīng)驗(yàn)回歸直線方程,稱為經(jīng)驗(yàn)回歸系數(shù)。
二、一元線性回歸中的檢驗(yàn)、預(yù)測理論
當(dāng)隨機(jī)變量Y與變量X之間的線性相關(guān)關(guān)系顯著時,由試驗(yàn)數(shù)據(jù)(x,y)(i=1,2,…,n)得到的Y關(guān)于X的線性回歸方程=+x大致反映了Y與X之間的變化規(guī)律,但由于它們之間的關(guān)系是非確定性的,對X于的任一值x,不可能確定Y的相應(yīng)值y,由回歸方程確定的=+x只是y的估計值,我們自然關(guān)心,若以作為y的估計值,其精確性及可靠性能否保證?因此,對于給定的X=x,需要預(yù)測對應(yīng)的Y的觀測值的取值范圍,即必須對y進(jìn)行區(qū)間估計,對于給定的置信概率1-α,求出y的置信區(qū)間,稱為預(yù)測區(qū)間。由于y-與相互獨(dú)立,由t分布定義可知:~t(n-2)。對于給定的置信水平1-α,確定t(n-2),使
p 因此,y的對應(yīng)于置信概率1-a的預(yù)測區(qū)間為: -t(n-2) 三、基于一元線性回歸理論的數(shù)據(jù)分析 (一)數(shù)據(jù)分析背景 本文數(shù)據(jù)分析主要是對裝備保障人員數(shù)據(jù)進(jìn)行匯總并進(jìn)行分析預(yù)測,即對各種資源應(yīng)有數(shù)與現(xiàn)有數(shù)據(jù)存在差異進(jìn)行分析。從理論上講,每個單位各類信息的應(yīng)有數(shù)與現(xiàn)有數(shù)應(yīng)一致,才能恰好滿足工作需求,但由于各種原因,出現(xiàn)了隨機(jī)變量ε,這使得有關(guān)部門針對這種變化無法作出正確決策,因此,我們通過本次分析,建立二者之間關(guān)系的數(shù)學(xué)模型,根據(jù)數(shù)學(xué)模型對現(xiàn)有資源作了初步預(yù)測,并根據(jù)需要,利用合理的現(xiàn)有數(shù)對應(yīng)有數(shù)進(jìn)行控制。 (二)數(shù)據(jù)分析方法步驟 根據(jù)相關(guān)知識,明確了按照線性回歸理論進(jìn)行數(shù)據(jù)分析的基本步驟,基本步驟如下: 1.對要分析的數(shù)據(jù)對象進(jìn)行收集整理,刪除異常記錄,抽樣,確定數(shù)據(jù)分析樣本。 2.計算樣本數(shù)據(jù)的,,,,x,,s各值。 3.將各值代入公式:=,求出β值。 4.按α=-x式,求出值,確定回歸方程=-x。 5.根據(jù)樣本數(shù)據(jù)作散點(diǎn)圖,并在圖中畫出回歸方程直線。 6.根據(jù)回歸方程計算任意x值時對應(yīng)的值。 7.對于給定的置信概率,計算對y進(jìn)行區(qū)間預(yù)測的下限和上限。 8.將數(shù)據(jù)進(jìn)行分組(x,y)、(x,y),按2—4步分別求各組數(shù)據(jù)線性方程。 9.在同一圖中作各組數(shù)據(jù)散點(diǎn)圖,線性方程。 10.統(tǒng)計各數(shù)據(jù)散點(diǎn)的位置,對統(tǒng)計結(jié)果進(jìn)行分析,形成分析結(jié)論。 (三)數(shù)據(jù)分析案例 本文采用的樣本數(shù)據(jù)是裝備保障人員中的80條應(yīng)有數(shù)據(jù)、現(xiàn)有數(shù)據(jù)及對應(yīng)專業(yè)數(shù)據(jù),數(shù)據(jù)經(jīng)過變換處理,并對80條數(shù)據(jù)作散點(diǎn)圖,在散點(diǎn)圖上作出回歸方程,如圖1所示。 圖1 一元線性回歸分析圖 分別計算應(yīng)有數(shù)所對應(yīng)上、下限根據(jù)計算結(jié)果,將數(shù)據(jù)分成三組,即(應(yīng)有數(shù),上限)、(應(yīng)有數(shù),估計值)、(應(yīng)有數(shù),下限),對三組數(shù)據(jù)再次進(jìn)行回歸分析,求出各直線方程,在同一坐標(biāo)系中作出各直線,對分布各直線附近的各點(diǎn)進(jìn)行統(tǒng)計,其中,高出或在上限線上的點(diǎn)共4個,對應(yīng)的專業(yè)分別為A、B、C,D;低于下限的點(diǎn)共4個,對應(yīng)的專業(yè)分別為E、F、G、H;其它各點(diǎn)均在上下限之間。 通過上面分析可以得出以下結(jié)論: 1.從總體上來講,應(yīng)有數(shù)與現(xiàn)有數(shù)基本能夠滿足需求。 2.技術(shù)人員現(xiàn)有人數(shù)根據(jù)所從事專業(yè)不同出現(xiàn)差別較大,從事A、B、C、D專業(yè)的技術(shù)人員現(xiàn)有數(shù)多于應(yīng)有數(shù),個別專業(yè)中現(xiàn)有人數(shù)低于應(yīng)有人員。從事E、F、G、H專業(yè)的技術(shù)人員數(shù)量不足,不能滿足需求,而且缺編人數(shù)較多。 3.從長遠(yuǎn)來看,應(yīng)加大人才儲備,現(xiàn)有人數(shù)應(yīng)以預(yù)測上限數(shù)為儲備標(biāo)準(zhǔn)。若應(yīng)有數(shù)與現(xiàn)有數(shù)出現(xiàn)矛盾,不能滿足需求時,可以從合理的應(yīng)有數(shù)預(yù)測合理的現(xiàn)有人數(shù),也可以用合理的現(xiàn)有人數(shù)來控制應(yīng)有數(shù)的大體區(qū)間,從而使用二者能夠滿足實(shí)際需求。 四、結(jié)語 本文采用線性回歸理論對保障人員的應(yīng)有數(shù)、現(xiàn)有數(shù)進(jìn)行分析,建立了二者之間的數(shù)學(xué)模型,以應(yīng)有數(shù)為基礎(chǔ),依據(jù)數(shù)學(xué)模型對現(xiàn)有人數(shù)進(jìn)行了分析,得出了科學(xué)的結(jié)論,為決策部門提供了科學(xué)的依據(jù)。這種數(shù)據(jù)分析方法,為其它同類數(shù)據(jù)分析奠定了數(shù)據(jù)基礎(chǔ)。 參考文獻(xiàn): [1]汪榮鑫.數(shù)理統(tǒng)計[M].西安:西安交通大學(xué)出版社,2006:174-222. [2]Schilling M.Setting up a data gathering infrastructure[M].2007:1-19. [3]Houtsma M,Set oriented data mining in relational databases[M].2000:1-20.