周玉臣, 方 可, 馬 萍, 楊 明
(哈爾濱工業(yè)大學控制與仿真中心, 黑龍江 哈爾濱 150080)
校核、驗證與確認(verification, validation and accreditation, VV&A)貫穿于復雜仿真模型開發(fā)的全生命周期,模型驗證能夠確保對模型中缺陷與錯誤的早期檢測,及時解決各設計開發(fā)階段所暴露出的問題,從而保證仿真模型的可信性與正確性,降低應用風險。
復雜仿真模型驗證具有評估對象復雜、數(shù)據(jù)量大、組織實施困難等特點。文獻[1]指出為了保證模型在應用域內(nèi)有效,需要對不同想定下獲得的仿真數(shù)據(jù)與參考數(shù)據(jù)進行比較,這一過程往往經(jīng)濟成本與時間成本較高。
如何有效利用海量數(shù)據(jù)對復雜仿真模型進行驗證是目前模型驗證方法面臨的挑戰(zhàn)之一。相似性分析是復雜仿真模型驗證的主要手段,數(shù)據(jù)的多樣性導致驗證過程中需要使用不同的數(shù)據(jù)相似性分析方法。研究人員提出了大量的相似性分析方法對仿真時間序列與參考時間序列的相似性進行度量,文獻[2-4]對數(shù)據(jù)相似性分析方法進行了綜述。不同的相似性分析方法可以度量仿真模型輸出與參考系統(tǒng)輸出某一個或者某幾個方面的相似性程度,而無法全面的分析具有不同特征的時間序列間的相似性。文獻[5]提出了一種基于神經(jīng)網(wǎng)絡的周期性時間序列相似性度量方法,該方法通過將數(shù)據(jù)進行頻域轉換,利用歐式距離度量時間序列在頻域的相似性程度。文獻[6]利用隨機神經(jīng)網(wǎng)絡(probability neural network, PNN)對定量分析結果與專家主觀相似性評定結果的映射關系進行學習。利用機器學習方法設計適用范圍更廣的相似性分析方法是有效應對海量數(shù)據(jù)相似性分析問題的主要途徑。
文獻[7]指出仿真模型驗證并不是要判斷仿真模型能否完全復現(xiàn)出仿真對象,而是判斷仿真模型的輸出誤差是否大到淹沒其有用性。相對于獲得仿真模型輸出的可信度數(shù)值,數(shù)據(jù)的相似性程度或者指標的可信度等級對于可接受分析同樣是有效的。
本文將復雜仿真模型驗證中的數(shù)據(jù)相似性分析轉化為可信度等級分類問題,實現(xiàn)大量數(shù)據(jù)的快速分析。區(qū)別于現(xiàn)有文獻采用單一類型的分類器模型完成多分類任務,本文嘗試將多個不同類型或者不同結構參數(shù)的分類器進行集成,從而提高集成分類系統(tǒng)的準確率與泛化能力。
首先闡述了復雜仿真模型驗證要素,之后將模型驗證指標的可信度計算轉化為多分類問題。
定義1仿真模型驗證可以用四元組描述:
CΩ={K,D,A,M}
(1)
式中,K,D,A,M分別表示仿真模型驗證指標體系、驗證數(shù)據(jù)集、可接受準則集、相似性分析方法集。
仿真模型驗證指標體系描述了影響仿真模型可信度的所有因素,典型的評估指標體系構建方法包括基于層次分析法的樹形評估模型構建方法、基于多屬性決策網(wǎng)(multiple attribute decision network, MADN)的網(wǎng)狀評估模型構建方法等。
定義2[8]基于MADN的仿真模型驗證指標體系可以表示為:K={〈N,V〉;〈B,W〉;C;T},式中,N,V,B,W,C,T分別表示節(jié)點集、取值集、有向邊集、權重集、條件集和閾值集。
定義3D={〈S1,O1,Nλ1〉;〈S2,O2,Nλ2〉;…}為驗證數(shù)據(jù)集。其中,Sk與Ok分別表示模型驗證指標Nλk在相同想定下的仿真數(shù)據(jù)與參考數(shù)據(jù)。
定義4A={〈N1,A1〉;〈N2,A2〉;…}為可接受準則集。其中,Ak表示第k個驗證指標Nk對應的可接受準則。可接受準則與模型驗證指標體系中的指標一一對應。
定義5M={〈M1,G1〉;〈M2,G2〉;…}為相似性分析方法集。其中,Gk表示第k種相似性分析方法Mk的適用范圍。相似性分析方法包括主觀分析方法、靜態(tài)統(tǒng)計學分析方法、時間序列分析方法等。
仿真模型驗證過程中單個指標的評估過程如圖1所示,對于模型驗證指標Nk,選擇對應的仿真數(shù)據(jù)與參考數(shù)據(jù);之后,在分析方法集Mk中選擇合適的數(shù)據(jù)相似性分析方法對仿真數(shù)據(jù)與參考數(shù)據(jù)的相似性進行分析,獲得Nk的可信度Vk;最后對其進行可接受性分析,獲得該指標通過或者不通過可信度評估的結論。

圖1 單個指標的模型驗證過程Fig.1 Model validation process of single factor
復雜仿真模型驗證一方面可以獲取模型整體的可信度結果,另一方面可以定位可信度缺陷的節(jié)點,以支持仿真模型的改進。顯然,仿真模型越復雜,需要評估的指標越多。傳統(tǒng)的仿真模型驗證工作模式中,由分析人員對每個指標配置數(shù)據(jù)及相似性分析方法,其效率較低;不適用于利用大量數(shù)據(jù)對各個驗證指標進行分析。引入機器學習相關成果可以顯著提高模型驗證的效率,實現(xiàn)對大數(shù)據(jù)集的快速分析。
仿真模型驗證是分析模型精度是否能夠在其應用域內(nèi)代表真實物理系統(tǒng)的過程,而不是決定模型正確與錯誤。對于仿真模型,并不要求其眾多輸出完全匹配真實系統(tǒng)輸出。在一定程度上,相對于連續(xù)的可信度值,可信度等級足夠用于判定模型的輸出是否有效。將模型驗證指標的可信度等級作為仿真時間序列與參考時間序列相似性分析結果,則模型驗證問題可以作如下描述:
對于模型驗證指標Ni,仿真時間序列記為Si=[(ti,1,si,1),(ti,2,si,2),…],參考時間序列記為Oi=[(ti,1,oi,1),(ti,2,oi,2),…];oi,k與si,k為時刻ti,k驗證指標的輸出值,可信度等級表示為{C1,C2,…,CΛ}。利用不同的準則提取Si與Oi的相似性特征,進而利用樣本數(shù)據(jù)構建分類模型,預測Ni的可信度等級。可信度等級可以采用離散數(shù)值描述,如{Ⅰ,Ⅱ,Ⅲ,Ⅳ,Ⅴ},或者采用語義描述,如{完全可信,非常可信,可信,一般可信,不可信}。
首先,簡要闡述了集成學習的基本方法;其次,提出了基于集成學習的復雜仿真模型驗證方法框架;然后,為了挑選具有最大差異的基分類器,提出了基于懲罰因子的多樣性篩選準則;最后,給出了集成分類系統(tǒng)的構造過程。
可信度等級分類是一個典型的多類分類問題,一般是采用神經(jīng)網(wǎng)絡、支持向量機、決策樹、貝葉斯方法等機器學習方法,訓練單一分類器實現(xiàn)分類任務;但是單一分類器的準確率易受到訓練樣本標簽準確性、樣本規(guī)模、訓練方法、參數(shù)等因素的影響,且算法穩(wěn)定性較差。例如,將一組數(shù)據(jù)按照一定的比例劃分為訓練集與測試集,重復執(zhí)行若干次;分別統(tǒng)計訓練集或者測試集的分類準確率,同一種分類器的準確率結果可能差別較大。
集成學習[9-10]通過構建并結合多個學習器完成學習任務,也被稱為多分類器系統(tǒng)或者集成分類系統(tǒng)。通過結合具有差異的基分類器,一方面,可以提高分類算法的穩(wěn)定性;另一方面,可以提高算法的泛化能力。集成學習[10]可以表示為

(2)
式中,gm(y|x)表示單個學習模型(基分類器或者基模型);ωm表示調(diào)諧參數(shù)。
集成學習可以分為為兩類,同構集成與異構集成。同構集成的典型代表是Bagging與Boosting。Bagging通過改變訓練樣本的抽樣方式,并行生成不同的訓練樣本,用于多個同類分類器的訓練,隨機森林可以看作是對多個決策樹模型進行Bagging集成。Boosting是通過序貫抽樣與訓練,逐步提升分類器性能,最終將多個基分類器進行融合。
異構集成是指將不同類型或者不同結構參數(shù)的分類器模型集成在一起,完成分類任務。構造準確率高且多樣的分類器是集成學習算法成功的關鍵。異構學習在保證個體分類器的多樣性方面具有一定的優(yōu)勢,在對不同結構分類器進行訓練與性能測試基礎上,篩選其中分類準確率高、多樣性顯著的模型加入異構分類系統(tǒng),可以實現(xiàn)性能更好的集成分類系統(tǒng)。
在本文研究中,主要采用反向傳播神經(jīng)網(wǎng)絡(back propagation neural network)[11-12]、誤差校正輸出編碼(error correcting output coding, ECOC)支持向量機[13-14]作為基分類器。ECOC是一種將多個二分類器進行組合的框架,通過增加分類器個數(shù),減少單個二分類器分類錯誤對整體分類結果的影響。
不同的機器學習方法具有不同的優(yōu)勢,神經(jīng)網(wǎng)絡可以擬合任意的非線性函數(shù),但是學習精度的提高會帶來過擬合的風險,導致泛化能力下降,此外其分類效果受到參數(shù)的影響。支持向量機可以利用少量的樣本獲得較為滿意的結果,且算法穩(wěn)定性較高,但是其精度受到一定的限制。通過對不同的機器學習模型進行集成,可以構建分類準確率更高,泛化能力更強,穩(wěn)定性更好的集成分類系統(tǒng)。圖2是本文提出的基于集成分類系統(tǒng)的復雜仿真模型驗證方法框架。

圖2 基于集成分類系統(tǒng)的復雜仿真模型驗證方法框架Fig.2 Complex model validation method framework based onensemble classification system
基于集成分類系統(tǒng)的復雜仿真模型驗證方法框架由特征提取模型和集成分類系統(tǒng)組成。特征提取模型采用多種分析方法對仿真時間序列與參考時間序列的相似性進行分析,之后將其規(guī)范化處理,合并后獲得相似性度量向量。不同的相似性分析方法從不同的角度度量仿真時間序列與參考時間序列的相似性程度,將其作為學習模型的輸入特征。集成分類系統(tǒng)利用多個基分類器分別進行相似性等級劃分,之后進行多樣性集成,獲得可信度等級。
構造高質量的集成系統(tǒng)的關鍵是增強基分類器的多樣性,利用不同的樣本訓練、采用不同類型的分類器模型或者不同拓撲結構的分類器、調(diào)整分類器訓練參數(shù)等是增加基分類器多樣性的主要手段。隱層節(jié)點個數(shù)不同的反向傳播(back propagation,BP)神經(jīng)網(wǎng)絡、采用不同編碼方式或者核函數(shù)的ECOC支持向量機,都可以認為是不同結構的分類器模型。
提高基分類器的多樣性是集成學習的關鍵,可以使集成分類系統(tǒng)適應不同類型的樣本,以提高分類的魯棒性。在此,針對如何選擇“好而不同”的基分類器,提出一種基于懲罰因子的多樣性篩選準則。
不同分類器之間的多樣性,可以利用分類器輸出的差異程度來度量。假設U={u1,u2,…,uk}表示樣本集的標簽,即ui表示一組仿真數(shù)據(jù)與參考數(shù)據(jù)的可信度等級。將樣本集劃分為訓練集與測試集,利用訓練集,采用不同的分類器模型訓練Q個分類器,然后在這Q個分類器中篩選出具有最好多樣性的q個,之后進行集成。P={pv1,pv2,…,pv k}表示第ν個基分類器預測的樣本集標簽。
顯然第一個分類器選擇自由度最大,為了保證分類質量,選擇訓練集分類準確率最高的分類器;后續(xù)分類器的選擇需要與第一個分類器進行多樣性比較。對于第一個分類器分類錯誤的樣本,希望第二個分類器可以盡可能多地預測正確,以對錯誤分類的樣本進行部分糾正。距離度量可以一定程度上度量分類器的多樣性,但是已選擇的分類器對部分訓練樣本集E出現(xiàn)連續(xù)的分類錯誤,后續(xù)分類器選擇就需要重點選擇那些可以對樣本集E的標簽預測準確的分類器。為此,結合漢明距離,給出一種度量分類器多樣性的篩選準則。
基于懲罰因子的多樣性篩選準則為
γ,εi)[(pνi-ui)⊕(pτi-ui)]
(3)
式中,Eν,τ表示第ν個分類器與第τ個分類器間的差異程度;γ表示懲罰因子或者懲罰系數(shù);εi為第i個樣本分類錯誤的次數(shù)統(tǒng)計;A⊕B表示A與B的異或。f(γ,εi)用以度量第i個樣本差異程度的權重,f(γ,εi)的形式可以是指數(shù)函數(shù)等非線性形式也可以是線性形式,可以靈活選擇,但是需要注意?f(γ,εi)/?εi≤0,?f(γ,εi)/?γ≤0;即懲罰因子γ或者錯誤次數(shù)εi越大,f(γ,εi)越小,即其對差異的貢獻越小。
針對本文提出的集成分類系統(tǒng)的訓練問題,在此給出基于IDEF0(ICAM definition for function modeling)[15-16]的集成系統(tǒng)構建過程模型,如圖3所示。集成分類系統(tǒng)構建過程詳細步驟如下。

圖3 基于IDEF0的集成分類系統(tǒng)構建過程Fig.3 Construction process of ensemble classification systems based on IDEF0
步驟1構建基礎數(shù)據(jù)集與相似性分析準則集;基礎數(shù)據(jù)集中的每一個樣本包含一組仿真時間序列與參考時間序列。本文主要采用的相似性度量方法包括絕對誤差度量、相對誤差度量、其他相似性度量3種類型。
絕對誤差度量方法包括平均絕對誤差(mean absolute error, MSE)、均方誤差(root mean square error, RMSE)、切比雪夫距離等;相對誤差度量方法包括相對平均絕對誤差(relative mean absolute error, RMAE)、平均絕對相對誤差(mean absolute relative error, MARE)、最大絕對相對誤差(maximum absolute relative error, MaARE)、相對均方誤差(relative root mean square error, RRMSE)、Theil不等系數(shù)(Theil’ inequality coefficient,TIC)法;其他相似性度量方法包括余弦相似度,線性相關系數(shù)、SVARE(standard variance of absolute relative error)法等。上述大部分方法可以在綜述性文獻[2-4]找到,在此僅給出MaARE法、SVARE法計算公式。
(4)
(5)
步驟2基礎數(shù)據(jù)集的多準則分析;利用所有的相似性分析方法對每一組仿真時間序列與參考時間序列進行分析。
步驟3基礎數(shù)據(jù)的相似性等級劃分;對于已經(jīng)具有可信度數(shù)值的基礎數(shù)據(jù),根據(jù)模糊隸屬度函數(shù)[8],將可信度結果轉換為可信度(相似性)等級。對于未評估的數(shù)據(jù),采用群組決策法[17],邀請多位主題專家與分析人員進行主觀評估,得到相似性等級標簽。
步驟4樣本集規(guī)范化處理;一組基礎數(shù)據(jù)的所有相似性分析結果與相似性等級構成一個樣本。由于不同的相似性分析結果值域差異較大,會影響訓練的收斂速度。采用式(6)對樣本集進行規(guī)范化處理。
(6)
式中,α為調(diào)節(jié)系數(shù);Q為某一種相似性分析方法的度量結果;Qmin為所有樣本采用該相似性分析方法獲得分析結果最小值;Qmax為所有樣本采用該相似性分析方法獲得分析結果最大值;Quniform為歸一化結果;Quniform∈[0,1]。
步驟5單一分類器的訓練;按照一定的比例將樣本集劃分為訓練集與測試集,訓練Q個不同類型或者結構參數(shù)不同的分類器。
步驟6分類系統(tǒng)的多樣性集成;首先選擇訓練集分類準確率最高的基分類器,之后利用基于懲罰因子的分類器多樣性篩選準則選擇多樣性差異最大的前T個分類器,將T個分類器中分類準確率最高的作為集成分類系統(tǒng)的下一個基分類器,重復上述過程,直到挑選出所有q個基分類器。采用式(1)進行集成,可以采用均權或者以訓練集分類準確率為參考進行權重分配。利用測試集進行性能測試,若達到要求,則訓練結束;否則,可以選擇調(diào)整集成過程參數(shù),或者回到步驟5,重新進行訓練。
每個基分類器的權重計算式為
,m=1,2,…,q
(7)

步驟7集成分類系統(tǒng)的應用;利用訓練好的分類系統(tǒng)計算新樣本的可信度。
對于集成分類系統(tǒng)中單一分類器的訓練問題(BP神經(jīng)網(wǎng)絡與ECOC支持向量機),可以參考文獻[12,14-15]。
為了檢驗基于集成學習的復雜仿真模型驗證方法的有效性,選擇飛行器六自由度動力學仿真數(shù)據(jù)及相應參考系統(tǒng)的試驗數(shù)據(jù)作為基礎數(shù)據(jù)集(675組);包括飛行器位置、速度、姿態(tài)等信息,每一組數(shù)據(jù)包含相同想定下的仿真時間序列與參考時間序列。
選擇第2.4節(jié)列出的相似性分析方法進行多準則分析,并對相似性等級進行標記及規(guī)范化處理。下面首先對單個分類器可信度等級分類性能進行對比;之后利用本文提出的多樣性篩選準則,對構建的改進集成分類系統(tǒng)與一般集成分類系統(tǒng)的可信度等級分類性能進行對比。集成學習的優(yōu)勢體現(xiàn)在多次重復訓練時,可信度等級分類準確率統(tǒng)計性能的提升;因此,下文著重對不同分類方法的可信度等級分類準確率的方差、均值、分位數(shù)等指標進行對比分析。
選擇5類分類器模型,對性能進行對比分析。
(1) 3層結構BP神經(jīng)網(wǎng)絡,輸入層、隱層、輸出層神經(jīng)元個數(shù)分別為12-H-1,設置隱層神經(jīng)元個數(shù)H分別為6、8、10。
(2) ECOC支持向量機,采用高斯核函數(shù),編碼方式[14]采用1對1編碼(one vs one, 標記為code1)與1對多編碼(one vs all, 標記為code2)。
樣本集按照一定比例隨機劃分為訓練集(575組,標記為Tr)與測試集(100組,標記為Te),對不同的分類器模型進行訓練,重復運行50次,得到BP神經(jīng)網(wǎng)絡、ECOC支持向量機的分類準確率箱線圖如圖4所示。表1為不同類型或者結構參數(shù)的分類器性能對比。

圖4 不同類型或者結構參數(shù)的分類器準確率箱線圖Fig.4 Classification accuracy boxplot of classifiers with different type or topology parameters

準確率/%BP神經(jīng)網(wǎng)絡Tr(H=6)Te(H=6)Tr(H=8)Te(H=8)Tr(H=10)Te(H=10)ECOC支持向量機Tr(code1)Te(code1)Tr(code2)Te(code2)均值88.7283.9889.7184.6890.2584.8287.6876.6789.5775.60方差10.5315.699.4915.496.3211.660.858.761.917.99中位數(shù)89.4784.0090.5385.0090.1185.0087.7977.0089.5876.00最小值78.9569.0078.9574.0085.2673.0085.8970.5086.7469.00最大值93.4792.0093.8993.0094.9590.0090.5381.5092.6380.50
注:(1)Tr表示訓練集,Te表示測試集;H表示隱層神經(jīng)元個數(shù);code1表示one vs one編碼,code2表示one vs all編碼;
(2) 表中加粗的數(shù)字表示每一行中訓練集或者測試集的最佳值,方差越小表示算法越穩(wěn)定,其余統(tǒng)計指標越大越好。
根據(jù)圖4以及表1中不同結構分類器的可信度等級分類性能統(tǒng)計,整體上,同一分類器的對訓練集的可信度等級分類準確率要高于測試集分類準確率,即分類器存在過擬合的風險;對于不同結構參數(shù)的BP神經(jīng)網(wǎng)絡或者采用不同編碼方式的ECOC支持向量機,其可信度等級分類準確率也存在一定的差異(均值、方差、分位數(shù)等)。顯然,不同類型的機器學習模型各有優(yōu)勢,隱層8個神經(jīng)元的BP神經(jīng)網(wǎng)絡整體上性能最佳,但是隱層10個神經(jīng)元的BP神經(jīng)網(wǎng)絡在測試集上效果更好,支持向量機在算法穩(wěn)定性表現(xiàn)較好。
為了檢驗基于懲罰因子的多樣性篩選準則的有效性,采用以下兩種集成方法構建集成分類系統(tǒng),并對其可信度等級分類性能進行對比。
(1) 選擇第3.1節(jié)中5類模型,每類分類器模型訓練10個(總計50個),利用多樣性篩選準則從中選擇5個進行集成,得到相應的改進集成分類系統(tǒng)(improved ensemble classification system, IECS)。
(2) 每類分類器模型生成一個進行集成,得到一般集成分類系統(tǒng)(general ensemble classification system, GECS)。
對上述兩種集成方法分別重復運行20次,統(tǒng)計可信度等級分類準確率。兩種集成分類系統(tǒng)箱線圖如圖5所示,具體的性能統(tǒng)計如表2所示。根據(jù)箱線圖及性能統(tǒng)計,采用本文提出的多樣性篩選準則構建的IECS,訓練集分類準確率均值達到了92.95%,測試集分類準確率均值達到了87.30%,其分類性能超過了文獻[6]中PNN的準確率75%~80%及文獻[18]中ECOC支持向量機的準確率82.3%。
采用多樣性篩選準則構建的IECS在可信度等級分類準確率的均值、方差、分位數(shù)等方面均優(yōu)于GECS,這反映了本文提出的方法在準確率與算法穩(wěn)定性方面要超過了一般集成學習方法。

圖5 IECS與GECS的分類準確率箱線圖Fig.5 Classification accuracy boxplot of IECS and GECS

準確率/%Tr(IECS)Te(IECS)Tr(GECS)Te(GECS)均值92.9587.3090.9286.75方差0.858.124.3414.83中位數(shù)92.9687.0091.5787.00最小值91.4883.0086.4380.00最大值94.4392.0093.2292.00
此外,從表1與表2中的最值統(tǒng)計,對于單個BP神經(jīng)網(wǎng)絡或支持向量機,可信度等級分類準確率分布在69%~94%,顯然其穩(wěn)定性較差,在應用過程中存在風險。IECS可信度等級分類準確率集中在83%~94%,GECS可信度等級分類準確率集中在80%~93%;相對神經(jīng)網(wǎng)絡、支持向量機與GECS,IECS在整體分類準確率與算法穩(wěn)定性方面均有提升,這意味著在應用過程中,對于不同的訓練數(shù)據(jù),采用本文的方法構建的IECS更容易獲得較好的可信度等級分類結果。
為了更加直觀地展示可信度等級分類效果,圖6與圖7給出了改進集成分類系統(tǒng)的訓練集(575組)與測試集(100組)分類結果。藍色數(shù)字為分類正確的樣本個數(shù)以及所占比例,紅色數(shù)字為分類錯誤的樣本個數(shù)以及所占比例;右下角灰色方塊內(nèi)為整體的可信度等級分類準確率及錯誤率。集成分類系統(tǒng)對訓練集與測試集分類準確率分別達到了92.9%與92%,同時對于分類錯誤的樣本,預測標簽與樣本標簽的誤差絕對值均為1(雙線六邊形邊框內(nèi))。上述分析結果進一步證明本文提出的集成分類系統(tǒng)構建方法以及基于懲罰因子的多樣性篩選準則的有效性。
利用機器學習構建通用的數(shù)據(jù)相似性分析方法,進而借助高性能計算機、云計算等技術實現(xiàn)對海量數(shù)據(jù)的分析,可以極大的提高復雜仿真模型驗證的效率。不同的機器學習模型具有不同的優(yōu)勢,集成學習一方面將不同類型、不同結構參數(shù)的機器學習模型有機結合成一個整體,完成相應的學習任務;另一方面,集成學習構建的系統(tǒng)在一定程度上融合了各個基模型的優(yōu)勢。

圖6 訓練集分類結果Fig.6 Classification result of training datasets

圖7 測試集分類結果Fig.7 Classification result of test datasets
海量數(shù)據(jù)的相似性分析是復雜仿真模型驗證面臨的挑戰(zhàn)之一,利用機器學習方法設計通用的相似性分析方法,是應對這一挑戰(zhàn)的有效解決途徑。本文在神經(jīng)網(wǎng)絡、支持向量機與集成學習等方法的基礎上,提出了一種基于懲罰因子的分類器多樣性篩選準則,用于構建分類性能更好的集成分類系統(tǒng)。應用結果表明,本文提出的用于相似性等級分類的改進集成分類系統(tǒng)性能優(yōu)于一般集成分類系統(tǒng)以及單個機器學習方法獲得的分類模型。
利用機器學習方法對數(shù)據(jù)相似性等級進行劃分,可以降低評估成本,提高模型驗證工作的效率。此外,集成分類系統(tǒng)在不斷的應用過程中,可以對其結構及其參數(shù)進行優(yōu)化,進一步提高其性能。