喻芳宇,高勝哲,2
(1.大連海洋大學信息工程學院,遼寧 大連 116023;2.大連海洋大學設施漁業(yè)教育部重點實驗室,遼寧 大連 116023)
成分數(shù)據(jù)[1]是指由各個組成部分(或成分)構成的數(shù)據(jù)集合,可以通過一組和為1 的多個分量表達變量的各個部分所占的成分比例。無論是哪個領域,對成分數(shù)據(jù)的準確理解和分析都是獲取相關知識和進行決策的重要基礎。因此,成分數(shù)據(jù)在現(xiàn)階段已經(jīng)受到廣泛關注。
早在1986年,J. Aitchison 就已經(jīng)提出邏輯正態(tài)分布理論和對數(shù)變換的計算方法[2];基于此,王惠文、劉強學者提出了球坐標變換方法,通過球面投影的方法對成分數(shù)據(jù)做非線性降維,從而得到與成分數(shù)據(jù)自由度相吻合的向量數(shù)據(jù)[1];J. J. Egozcue等提出了等距對數(shù)比變換[3];張曉琴等進行了成分數(shù)據(jù)組合預測研究[4];陶志富等將模糊時間序列分析與成分數(shù)據(jù)時間序列預測相結合,提出一類融合模糊時間序列分析的成分數(shù)據(jù)時間序列預測方法,在預測過程中對成分數(shù)據(jù)不進行變換,通過求成分數(shù)據(jù)信息熵進行模糊預測[5]。在成分數(shù)據(jù)預測研究中,存在一類成分數(shù)據(jù)——某個指標取值的頻率分布序列[5-6]。本文以頻率分布序列為研究對象,采用灰色預測理論與最優(yōu)化方法相結合的預測方法,以待預測時刻的頻率分布的期望值與均值的預測值之間差異最小化為目標,引入歷史經(jīng)驗約束及待預測時刻的實際方向余弦與方向余弦預測值之間差異控制在較小范圍內的約束,構建二次規(guī)劃數(shù)學模型,對頻率分布結構向量進行預測。
設狀態(tài)空間I={I1,I2,…,Im},變量X的頻率分布為:
式中fk為{X∈Ik}的頻率值。設變量X的歷史觀測數(shù)據(jù)為{xk(t)}(t= 1,2,…,T;k= 1,2,…,tk)。
設均值序列為:
定義變量Y,Y=yk,當X∈Ik,k= 1,2,…,m。本文所討論問題的數(shù)學描述為,已知某指標在第t時刻取值的頻率分布為:
為了解決對頻率分布序列預測問題,本文提出融合隨機統(tǒng)計規(guī)律性與優(yōu)化思想的成分數(shù)據(jù)預測模型研究框架,主要包含三個階段:
階段1:對第1,2,…,T時刻的歷史觀測數(shù)據(jù)的均值序列進行建模,得到第T+1 時刻均值的預測值;
階段2:對第2,3,…,T時刻觀測數(shù)據(jù)的頻率分布與第1 時刻頻率分布之間方向余弦序列進行建模,得到第T+1 時刻方向余弦的預測值;
階段3:融合階段1 和階段2 所計算得到的第T+1 時刻的均值、方向余弦的預測值,構建二次規(guī)劃數(shù)學模型,計算第T+1 時刻頻率分布結構向量的預測值。
1)構建基于灰色預測模型的均值預測模型對第1,2,…,T時刻的均值序列。
采用灰色模型GM(1,1)方法建立預測模型,預測第T+1 時刻的均值。
2)構建基于灰色預測模型的方向余弦預測模型
計算第k=2,3,…,T時刻的頻率分布與第1 時刻的頻率分布之間方向余弦序列。
采用灰色模型GM(1,1)方法建立預測模型,預測第T+1 時刻的方向余弦值。
3)構建基于信息融合的頻率分布結構預測模型。
為了避免異常值出現(xiàn),在成分數(shù)據(jù)約束條件的基礎上引入歷史經(jīng)驗的約束,以及待預測時刻的實際方向余弦與方向余弦預測值之間差異控制在較小范圍內的約束,構建頻率分布結構預測數(shù)學模型。具體模型如下:
模型的性能需要依靠適合的評價指標進行衡量[7]。本文預測模型的預測精度選用的是平均絕對誤差(MAE)、均方根誤差(RMSE)和方向余弦(DC),計算公式分別如下:
1)平均絕對誤差(MAE)
2)均方差誤差(RMSE)
3)方向余弦(DC)[8]
式中:xk(t)(k= 1,2,…,m;t= 1,2,…,T)是包含m個成分的成分數(shù)據(jù)x(t)的第k個成分;為xk(t)的預測值,對應預測成分數(shù)據(jù)為x?(t)。
本文選用2013—2022 屆某專業(yè)學生的專業(yè)核心能力數(shù)據(jù)進行實驗仿真,考慮到建模和驗證模型有效性的需要,將2013—2020 屆數(shù)據(jù)劃分為訓練集,將2021、2022 屆數(shù)據(jù)劃分為測試集進行預測。
本文選取2013—2022 屆某專業(yè)學生的全學程學業(yè)數(shù)據(jù),按照培養(yǎng)方案中專業(yè)核心課程計算得到每位學生的專業(yè)核心能力值。
在此基礎上,分別計算得到2013—2022 屆學生專業(yè)核心能力平均值和2013—2022 屆學生專業(yè)核心能力結構數(shù)據(jù);選取2013 屆學生專業(yè)核心能力結構向量為基準向量,計算2014—2022 屆學生專業(yè)核心能力結構向量與基準向量的方向余弦,如表1 所示。

表1 2013—2022 屆學生專業(yè)核心能力平均值、方向余弦及結構數(shù)據(jù)
對經(jīng)線性變換D-1后序列采用GM(1,1)預測方法,構建預測模型為:
式中:a= -0.038 8;b= 52.316 1。對預測結果作線性變換的逆變換D,公式為:
計算得到2013—2020 屆專業(yè)核心能力均值擬合值,擬合精度為96.69%,可用于對2021、2022 屆專業(yè)核心能力均值進行預測,預測結果如表2 所示。

表2 2021、2022 屆專業(yè)核心能力均值預測值
利用灰色預測模型對2014—2020 屆專業(yè)核心能力結構向量與基準向量的方向余弦序列進行建模,預測模型為:
式中:a= -0.000 674 72;b= 0.927 7。計算得到2014—2020 屆方向余弦擬合值,擬合精度為96.34%,可以用于對2021、2022 屆相應的方向余弦進行預測,預測結果如表3 所示。

表3 2021、2022 屆對應的方向余弦預測值
為了驗證本文預測模型的有效性,結合歷屆專業(yè)核心能力頻率分布數(shù)據(jù)中含有0 成分,本文選擇對專業(yè)核心能力結構成分數(shù)據(jù)進行球坐標變換,預測2021、2022屆專業(yè)核心能力結構向量。通過與利用球坐標變換預測結果的對比分析,得出不同預測方法對2021、2022 屆專業(yè)核心能力結構向量預測的性能對比,如表4、表5所示。

表4 不同預測方法對測試集預測結果

表5 不同預測方法在測試集上的性能對比
通過比較三種評價指標結果可以看出,本文所提出的預測模型的平均絕對誤差、均方根誤差小于球坐標變換方法的值;方向余弦值較球坐標變換方法的值更接近于1,說明此模型的預測精度顯著優(yōu)于球坐標變換預測方法。進一步說明了本文提出的成分數(shù)據(jù)預測模型的有效性。
本文以頻率分布序列為研究對象,融合頻率分布所具有的統(tǒng)計規(guī)律性與優(yōu)化思想,構建了二次規(guī)劃數(shù)學模型,選取某專業(yè)學生的專業(yè)核心能力頻率分布結構數(shù)據(jù),通過實驗對預測模型進行驗證并與研究成分數(shù)據(jù)的球坐標變換對比,結果表明,本文所提出的預測模型具有較好的預測精度,可以有效解決頻率分布序列預測問題。
注:本文通訊作者為高勝哲。