李 佳,劉振宇
(中南民族大學 資源與環境工程學院,武漢 430074)
隨著人工智能技術的發展,以神經網絡(ANN)、模糊數學法(Fuzzy)、貝葉斯分類(Bayesian)、灰色預測模型為代表的數據挖掘技術方法成為一種非常有效的機器學習分類評價手段[1].對清潔生產評價而言,鑒于生命周期評價原則是整個清潔生產評價活動的核心依據,需據此來構建評價指標體系,并制定評估流程.本次評估對象生產流程較長,在指標體系設置及選擇上較為復雜,具有模糊性、非線性、高噪聲、小樣本等特征[2];傳統評價方法雖操作簡便,應用較廣泛,但由于主觀性較強,評價結果存在不準確性[3,4].支持向量機方法(SVM)針對上述問題具有優勢,屬于分類算法的范疇,通過尋求最小結構劃風險提升學習機泛化能力,能在少量樣本下解決非線性及高維模式問題[5].已有學者將ANN運用到清潔生產工藝評價中,而SVM在該領域的應用尚未展開,因此,針對SVM在清潔生產評價領域的應用研究具有十分積極的意義.
目前我國石煤提釩行業存在問題較多,如難以有效提取釩資源、工藝設備落后、環境污染嚴重等,需要對該行業整體生產工藝技術制定和實施一套具有科學性、有效性的清潔生產評價方法,幫助企業“自我評估,發現問題,制定方案”[6].因此,本文在對BP神經網絡和SVM方法理論研究的基礎上,以石煤提釩生產工藝中水浸工藝為對象,對比分析兩種機器學習方法的異同及其應用.
采用數據挖掘算法有助于從大量復雜的數據中找出數據分析模式,根據功能不同所挖掘的模式主要有描述型和預測型兩種模式.BP神經網絡與SVM是其中典型分類預測算法模式,廣泛應用于機器分類學習過程中,但BP神經網絡與SVM的理論原理存在一定差異.
BP神經網絡是基于傳統統計學理論,遵循樣本數目趨于無窮大時的漸近理論[7,8];SVM是一種以統計學理論為主導的學習算法,常用于小樣本機器學習規律數學框架與基本理論的研究,優勢在于能很好地解決樣本不足的問題.與傳統神經網絡等方法相比,SVM以最小經驗風險為約束條件,通過對經驗風險的固定,使置信范圍最小化,最小化結構風險[9].
1.2.1 BP神經網絡
反向傳播(BP)神經網絡是人工神經網絡中的最常見模型,原理是以誤差反傳誤差為依托,進行學習方法的反向傳播,通過訓練樣本對象的持續學習,不斷調整不同層次間的閾值及連接權值,輸入信號先后經過各隱層節點,最終實現由輸入層節點向輸出節點的轉移,單層節點的輸出僅同下一節點輸出存在密切關聯.假如輸出層的輸出達不到預期水平,將導致誤差信號反向傳播流程的逆向發展[10,11].在兩個過程交替發展的過程中,誤差函數梯度下降策略運行在有權向量空間上,動態迭代進行某組權向量的確定,獲得最小化的網絡誤差函數,信息提取和儲存任務隨之完成.常見的BP神經網絡模型共有自學習、輸入輸出、誤差計算及作用函數共四種模型[8].
1.2.2 支持向量機
SVM有著線性和非線性,在評價清潔生產的過程中,評價指標與清潔生產等級兩者間存在著極為顯著的非線性關聯.本文探討非線性SVM.在非線性變換的支持下實現非線性問題向對應維度的線性問題的轉變,通過變換過程達到分類超平面的最優化,借助核函數促進此種變換目標的達成.核函數同特定變換空間內的內積相等,也就是K(xi,xj)=φ(xi)·φ(xj).“維數災害”的問題通過K(xi,xj)得到了妥善處理,其適用模式分類的理念是:在凸二次規劃問題的計算過程中,在預先設定好非顯現映射φ的支持下實現某一高維空間上的向量x映射,再在高維空間內計算分類超平面的最優解,使其能夠盡量準確地劃分兩類數據點,且將劃分好的數據點置于分類面的最大距離上[10].
課題前期曾對石煤提釩工藝進行了深入研究,以LCA理論為基礎,構建了石煤提釩工藝清潔生產評價指標體系[12],本文在前期所建立的水浸工藝清潔生產評價指標體系基礎上,利用BP神經網絡和支持向量機兩種機器學習方法,對比研究兩種方法在清潔生產水平評價上的應用.用隨機方法[13]生成了標準清潔生產等級樣本系列:
(1)3個清潔生產等級“清潔生產水平”、“一般水平”和“淘汰水平”分別對應清潔生產等級目標值1, 2, 3;
(2)利用均勻隨機數在各評價等級每個指標變化區間內隨機產生20個指標值;
(3)在隨機生成的60個樣本系列中,對應每個生產等級共挑選30個樣本構成檢驗集,檢驗集用于SVM和BP檢驗及對比.
基于數據變量間的差異,其數據級與量綱存在一定差異,必須通過歸一方式進行訓練樣本的處理,強化指標范圍的合理性,有效緩解數值差距.可通過下列公式進行規范化處理[14]:
(1)

分別利用SVM和BP神經網絡兩種方法對石煤提釩水浸工藝清潔生產水平進行評價,比較分析結果.使用MATLAB7.8為操作平臺,SVM選用Libsvm工具箱實現,BP神經網絡采用自己編制算法程序.
2.1.1 分類器選擇
SVM算法從本質上屬于兩類分類器,而石煤提釩清潔生產評價結果由三個層次構成,通過SVM算法無法進行清潔生產的分類評價,故進一步構建了以二叉樹為基礎的三類分類系統(見圖1).

圖1 三類分類系統Fig.1 Three kinds of classification system
2.1.2 核函數和參數
現階段常見的SVM函數共4種,分別為sigmoid 核函數、多項式核函數、線性核函數和徑向基核函數[15].徑向基核函數在某一參數的取值過程中所出現的特例是sigmoid 核函數,它對于數值的要求相對較少;同多項式核函數對比,其參數量相對較少,還能很好地處理各分類問題,具有極為突出的適用性優勢[17].本文在評價模型訓練過程中選取了徑向基核函數,見下式:
K(xi,xj)=exp(-γ‖xi-xj‖2),γ>0.
(2)
確定核函數形式后,相應參數為懲罰因子C和核參數g(上式中的γ)函數參數的取值直接影響模型的分類效果,由SVM理論可知:若在未使用參數優化工具的情況下運用SVM,則在參數選擇過程中僅能運用試湊法的方式,此種方式規范性較弱.由于訓練結果的準確性,大都需要不斷重復試湊過程,少則數十、多則數百,且最終未必能獲得最優化的SVM.因此,本文選取網絡搜索法(GS),對懲罰參數C和核參數g進行尋優.在設置C和g的搜索范圍時,先進行粗略網格搜索,獲得最佳參數位置,再在進行精細網格搜索,確定最終的參數值.具體步驟如下:
(1)以設定步長為依據,結合搜索方向,不斷進行參數對的選擇并進行校驗驗證,通過對比分析的方式重復進行各參數對的交叉驗證,到網格搜索停止時結束,最終結合交叉驗證率的大小選擇最優化的參數.將參數C和g的搜索范圍分別設為[l,500]和[l,10];參數集C∈{2-10,2-9,…210},g∈{2-10,2-9,…210},進行粗略網格搜索,確定達到最高分類效率的參數區間.
(2) 以設定好的最高分類效率參數區間為依據,就C∈{2-5,2-6,…2-9},g∈{20,21,…24}進行重新調整,并據此推進精細網格搜索,其結果參見圖2.分類效率最大化的平面體現為深色平面,當分類效率的結果最大時,該參數是評價模型的最優化參數,該研究過程中,分類效率達100%時,C=0.0038,g=1.8,評價模型隨之形成.

圖2 精細網格搜索結果(最佳:C=0.0038,g =1.8)Fig.2 Results of fine grid search
綜上設計,就 LIBSVM2.88已有的徑向基核函SVM網絡參數的程序最優情況進行調整.確定最優化參數后,訓練精度隨之達到最優.圖3為網絡搜索法獲得的SVM對訓練樣本和測試樣本的檢測結果.

圖3 GS-SVM的測試集實際分類和預測分類對比Fig.3 Comparison of measured and predicted values of GS-SVM
該研究在函數編程計算過程中主要采用了Matlab神經網絡工具箱,輸入、輸出層上的神經元分別有29, 1個,隱層的神經元則有20個(該個數可自主測定,但必須控制在輸入個數以內,且相對輸出與輸入綜合的50%更大).當訓練次數高達30次時,BP網絡的誤差率僅為10%,評價過程及結果如圖4所示.

圖4 BP神經網絡評價過程及預測分類結果Fig.4 BP neural network evaluation process and the predicted classification results
訓練過程中,BP網絡會產生一定的“記憶”,該算法不僅誤差小,還在容錯能力、泛化性等具有極強的優勢,能夠更好地滿足大樣本訓練數據的檢測要求.同GS-SVM對比,當樣本數為30時,通過BP網絡進行測試的準確率僅有90%,代表以梯度下降法為根本的BP神經網絡呈現出“過學習”狀態,在小樣本訓練集較少的情況下,能很好地模擬出生產工藝現狀,卻無法有效地掌握評價結果的特征,使其在可推廣性上存在一定劣勢,證明小樣本訓練情況下,BP神經網絡所提出的評價模型在泛化性上的優勢逐步弱化,局部極小、收斂速度不快等問題極為突出,且小樣本訓練結果難以滿足預期條件.
本研究分別利用SVM和BP神經網絡建立了石煤提釩水浸工藝清潔生產評價模型,并進行了模型分類評價對比,結果表明:SVM方法建模過程簡單,能保證模型具有較好的泛化性能,在解決小樣本即有限樣本的評價問題時較BP神經網絡有更好的適應性和推廣性,不僅解決了整體工藝指標數據存在的數據不足問題,還降低了采集數據的評價成本,具有較好的準確性.而BP神經網絡由于陷入局部最優而導致不能獲得較為客觀的結果.由于SVM不過分依賴樣本數,因此,SVM較BP神經網絡更適合工藝清潔生產評價問題的研究,是一種具有較高實用價值的小樣本評價方法.