楊偉凱,王艷
(江南大學 物聯網工程學院,江蘇 無錫 214122)
自組織映射是一種無監督的神經網絡,是知 識提取和機器學習領域一個重要的研究方向,其本思想是對數據向量進行矢量化操作,從而減少數據的維度,以提高數據的優化效果[1-4]。現有的自組織映射方法將多個輸入與單一的神經單元關聯到一起,通過從搜索空間中搜索候選解決方案,對大量的搜索結果加以分析,以此減少計算的效率問題。現有的自組織映射方法根據學習方法大致可以分為兩類:基于特征信息的動態自增長半監督協同方法[5]和基于歷史特征信息的動態進化方法[6-7]。其中半監督協同方法大都著眼于樣本本身的結構信息,完成絕大部分數據樣本的標記,對于剩余的噪聲數據放進子分類器進行投票輸出標記,對于輸出不一致的樣本進行K均值的二分類判別。動態進化的主要思想是利用算法過程當中產生的不同種群解集,減少新數據的獲取和內部屬性的關系推理,采用新的知識搜索策略,提高算法的搜索能力,從而對非線性優化問題進行優化。此外,自組織映射思想也可以和其他典型的方法進行結合,充分發揮兩者結合的優勢和自組織映射思想的特點,在相關領域獲取顯著的成果研究[8-10]。
知識推理思想是機器學習領域的一個重要研究方向,一般結合其他的方法用來進行知識數據的上下關聯推理[11-13]。通常用于知識圖譜當中,基本可以分為邏輯推理[14-15]和非邏輯推理[16],一般從已知的知識出發,結合頭實體和尾實體之間的路徑,通過已經存在的知識從而獲取得到新的事實,實現知識圖譜信息的擴充補全。文獻[17]通過對實體集進行語義化生成路徑表示,對路徑采用有效推理的思想尋找了項目和用戶之間的潛在關系。
上述方法有的考慮了迭代過程當中的歷史信息,有的考慮了特征信息的自適應,有的考慮了規則推理問題,有的考慮了置信度問題。但是,當歷史特征信息存在局部最優,上述方法的使用就會出現不足之處,沒有進一步考慮到特征信息的優勝過程中采用知識推理的框架對多維歷史信息進行上下關聯推理。
本文針對在特征信息比較多的情況下,綜合考慮了以上各個方面對建模的影響,為了提升對特征歷史信息利用的準確性和充分性,提出一種知識推理框架下的改進自組織映射優化算法。首先,利用協同訓練的思想生成主輔自組織映射神經網絡,對網絡中優勝過程輸入的特征信息進行優選,保證輸入信息之間聯系性,提高輸入信息優化的準確性;其次將其映射為圖節點矩陣,利用圖匹配的方法對特征信息之間的聯系進行匹配,優選出滿足推理框架下的知識特征集;然后,通過對此框架下的知識特征集進行置信度判斷,得到置信度高的優選樣本集;最后,為了進一步提高優化的效果,在改進自組織優化算法下,多次循環篩選提高優化率。
圖節點匹配是一種利用圖結構之間的相似度信息,進行尋找圖結構之間節點與節點之間的匹配關系。圖可以表示為G=<H,R,E>三元組表達式[18],其中H是頭實體集,R是一個關系集,E是一個尾實體集,在這些實體集中,每個都是包含著特征和標簽的。如圖1 所示,圖節點匹配算法的基本思想:根據圖的結構和屬性特征用鄰接矩陣等將其映射到雙曲空間上面。此時不僅包含著圖的節點內容、關系邊以及權重,更多的是包含更多可挖掘的節點之間的隱含屬性[19]。通過將向量空間的圖信息嵌入到自組織映射神經網絡當中,我們可以在一定程度上面提升算法的穩定性和精確度,從而完成特征集信息的推理優化[20-21]。
置信度判斷是用來進行判斷知識信息的符合程度,篩選出可信的推理知識樣本用于下一次迭代過程中的更新方向,直接影響改進自組織映射算法的優化性能。本文通過打分函數來實現置信度的判斷[22],打分函數表示為
式中:hr、tr對應于三元組信息中實體嵌入,其對應的h,t∈Bdc,Bdc表示為雙曲空間;bh和bt是兩個偏置,用來更好地擬合數據;R屬 于Bdc,是一個關系對角矩陣; ?c表 示莫比烏斯-向量乘法; ⊕c表示莫比烏斯-加法;表示雙曲空間中的距離定義。雙曲空間較之歐幾里得空間通過模型當中額外的偏置b來表達雙曲空間中的信息影響范圍距離。
知識推理思想是機器學習中一種重要的推理技術,一般結合其他算法用于邏輯或非邏輯推理當中,作用是利用已知的知識信息或者由上到下的規則樣本,在向量空間中推理歸納得到新的知識樣本。其工作流程:首先,根據已有的少量標簽樣本構建得到初始的知識圖譜;然后,利用知識圖譜建立其各個節點之間的關聯存在,采用不同的知識推理模型選出推理的樣本數據進行訓練,搜尋存在的關系路徑;通過置信度的判斷獲取到正確的推理結果。
將知識推理思想融入本文算法,能實現對歷史特征信息的充分準確利用,算法思想如圖2所示。

圖2 算法的基本思想Fig.2 Basic concept of the algorithm
自組織映射算法是一種采用競爭策略的無監督雙層神經網絡,通過高階數據的輸入以及中間層的優勝策略,從而輸出形成新的拓撲結構。自組織神經網絡具有在處理信息數據的時候保留數據拓撲結構的特點,往往用于數據縮減和聚類方面[23]。在自組織映射神經網絡的訓練過程當中,通過將高維數據映射到二維網格狀神經元空間,使神經元可以直接近似描述為一種模式的分布,具有高緯度數據處理的良好效果。一個自組織映射算法集成了兩個不同的神經網絡層:一個輸入層和一個競爭層。
自組織映射神經網絡的訓練過程涉及兩個重要的因素,權重的調整和神經單元的拓撲鄰域定義。自組織映射算法的學習過程包含兩個階段,相似度的計算和權重適應調整。在訓練開始的初始時段,用隨機生成的值進行權重值的初始化,隨后引入第一個數據向量,在相似度計算階段,計算與神經單元有關聯的權重和數據向量之間的歐氏距離,緊接著選擇在H個神經單元中達到最小距離的神經單元g作為贏家神經元;在權重調整階段,獲勝神經單元g的 權重wg被調整,并且確定贏家神經單元g鄰域內神經單元的拓撲鄰域結構;最后,調整拓撲結構Ng當中神經單元的權重,如圖3 所示。

圖3 自組織映射網絡結構層Fig.3 Self-organizing mapping network architecture layer
圖4 為知識推理框架下的改進自組織映射算法的流程圖,主要包含知識推理框架、置信度判斷、樣本篩選、迭代更新4 個部分。本文在SOM(selforganizing feature map)算法的基礎上通過添加協同訓練的思想,在進化迭代過程當中利用知識推理思想進行包含特征信息的三元組知識的優化,便于針對不同樣本類型,從而構成新的解決方案,優化算法的普適性。另外在避免數據多樣性帶來的局部優解的情況下,通過多個并行的SOM 神經網絡進行半監督實現特征數據樣本的優化。通過優勝單元的尋取,找尋出不同神經網絡當中的數據差異大的地方,在知識推理準則的判斷下將帶有更新信息的知識推理信息進行輸入,根據推理準則的判斷結果進行標記,利用知識推理進行二次推理判別,將其加入到待迭代的數據集中,通過雙曲空間的距離計算來判別待篩選的樣本,判斷是否滿足置信度條件,另外在整個協同訓練的過程中,每確定一個推理樣本,分別依次加入到不同的SOM 神經網絡當中,保證協同訓練過程當中的各個子網絡的學習均衡和公正。該算法一方面有效避免了陷入局部最優的情況,另一方面針對不確信的樣本數據,通過知識推理,增加了算法的可信度。

圖4 改進自組織映射算法流程Fig.4 Flow of improve self-organizing mapping algorithm
本文提出的改進自組織映射算法,綜合考慮進化過程當中的歷史信息以及協同訓練的思想,在迭代進化過程中使用知識來執行搜索策略方面的更新,提高優化能力。本文提出的知識推理準則,綜合考慮了高維數據降維、歷史信息知識推理、基于置信度判斷的樣本篩選等3 方面問題,進而達到準確預測優化樣本的目的,防止在迭代的過程中誤差累積情況的發生。歷史信息知識推理中對樣本進行優選和推理不僅保證了初期僅僅挑選當次迭代樣本分布范圍內的樣本,還包含了過往迭代中的優選知識信息,排除了樣本中可能存在的離群點的影響,降低優化誤差,避免產生過大的震蕩。
2.2.1 協同訓練策略
在協同訓練思想基礎上,將樣本數據用來初始化訓練2 個并行的SOM 神經網絡,形成帶有差別信息的類別中心,在數據多樣性的表示基礎上,更新更為優化的解集,返回到子代種群中。協同訓練思想如圖5 所示。

圖5 SOM 協同訓練Fig.5 SOM combined training
2.2.2 知識推理準則
知識推理準則1給定一個閾值y1,利用雙曲空間距離來進行度量當次樣本x與歷史信息x1之間的相似度,如果x和x1之間的距離大于閾值,那么x滿足知識推理的條件。
知識推理準則2給定一個閾值y2,判斷將歷史信息樣本加入建模過程中后對模型的優化效果的影響,如果模型對樣本優化的方差小于閾值y2,那么歷史信息可信,能夠用于更新樣本。
知識推理準則3給定一個閾值y3,如果推理得出的信息與歷史信息的總平均的雙曲空間距離小于閾值的話,那么該條信息就是成功的,可以加入樣本M。
上述3 個知識推理準則,知識推理準則1 通過雙曲空間距離選出與歷史信息中具有不相似度的樣本點集,該準則有利于歷史信息多樣性。知識推理準則2 利用雙曲空間距離提出了每次迭代過程當中比較偏離的樣本點,提升了知識推理的精確度。知識推理準則1 和2 的閾值采用工程經驗進行設定,也可以通過采用枚舉的方法進行獲取,就是先固定閾值y2,更改閾值y1,由其對模型優化效果的影響確定y1的最優閾值范圍,同理也可以得到y2的最優范圍,然后利用枚舉法進行雙向枚舉得到最佳的閾值。知識推理準則3 通過對推理得到的信息進行篩選,選出其中可靠的樣本用于更新下一代子集,其基本思想是假設當前樣本集為最優樣本集合,那么利用閾值判斷加入該信息后的影響結果,如果誤差變小,那么可以更新子集,從而提升準確性。當前迭代中的信息樣本與歷史信息之間的雙曲空間距離dc(x,y)計算公式[24]為
式(2)中x⊕cy是雙曲空間當中的莫比烏斯加法,用來實現向量的加法,c表示雙曲空間的曲率,x、y表示雙曲空間中的兩個向量。式(3)中的 〈x,y〉表示兩個向量的內積,結果是標量。利用知識推理進行歷史信息的篩選,算法流程如圖6 所示。

圖6 知識推理的過程Fig.6 Knowledge reasoning process
從圖6 流程圖可知,按照流程,首先進行優勝單元的搜索,然后根據搜索的結果進行歷史特征信息的知識推理,具體算法步驟:
1) 初始化參數。初始化閾值y1、y2和歷史樣本信息h1;
2) 依次取出其中的樣本;
3) 由式(2)計算雙曲空間的距離;
4) 根據推理準則進行判斷樣本取值的結果是否滿足迭代要求,如果不滿足跳轉到8);
5) 在滿足推理準則的情況下進行特征信息的推理;
6) 存入單元M中,判斷是否滿足置信度條件;
7) 如果不滿足跳轉到8),滿足的情況下跳轉到9);
8) 生成偽數據知識點;
9) 放入子代解集中進行解集的迭代。
2.2.3 置信度判斷
在改進自組織映射算法中,如果存在不準確的樣本信息,容易造成SOM 神經網絡的誤差累積,從而導致優化效果比較差,所以必須對知識推理完成的信息進行置信度判斷,在知識推理準則3 的基礎上進行置信度的判斷,具體步驟如下:
1) 初始化樣本集,閾值y3;
2) 根據式(3)計算得到閾值y3;
3) 依次取出樣本;
4) 計算平均方差;
5) 判斷是否滿足知識推理準則3,滿足存入,否則跳轉6);
6) 判斷是否取完樣本,取完跳出循環,否則,跳轉2)。
知識推理框架下的改進自組織映射算法總體步驟如下:
1) 初始化參數,包括樣本集、循環次數、初始權重、學習率;
2) 更新網絡權重值,計算距離,獲取主副SOM神經網絡當中的優勝神經單元;
3) 利用雙曲空間距離進行閾值的計算和初始化;
4) 判斷是否滿足知識推理準則1 和知識推理準則2;
5) 對歷史特征信息進行知識推理,對知識推理的樣本集進行置信度判斷,篩選可靠的樣本集進入子集迭代;
6) 根據子集和樣本進行更新;
7) 未滿足迭代循環 m axG次,否則跳轉到9);
8) 未滿足學習率的下降閾值,跳轉到2),滿足跳轉到9);
9) 得到優化的解集。
為了驗證本文所提方法的實際效果,以制造機床生產過程為對象。機床加工制造過程中的機床能耗對產品效益和環境的影響很大,如何通過優化工藝參數進而優化工藝能耗是智能制造領域一直以來的一個重要研究課題。機床制造過程中的工藝參數主要有4 個輔助變量:切削速度N、進給量f、軸向切削深度ap、 徑向切削深度ae。該實驗過程數據通過截選共有500 組數據,為了詳細展現本文算法性能,縱向比較了幾點創新對模型的影響,具體比較如下:
1) SOM (self-organizing feature map)方法[25],僅利用SOM 方法當中的映射策略,將原始的特征信息映射到了新的特征空間中,沒有考慮到優化中歷史信息的有效利用。
2) DGSOM (dynamic growing self-organizing f-eature map)方法[26],直接利用帶有神經元方向和特征的SOM 網絡模型,在優化過程中考慮了系統的復雜度,但是沒有設計到優化中的歷史特征信息的復用和推理。
3) MOPSO (multi-objective particle swarm optimization)方法[27],針對多目標優化問題考慮了解的優化水平和帕累托邊界的分布,但是在最小約束去除問題過程中知識將歷史信息作為每次過程中的一個無關解,沒有將其合理利用在下一步迭代當中。
4) ABC (artificial bee colony algorithm)方法[28],其根據優化目標生成多維度的初始化種群,引入了交叉和變異的機制來解決算法優化中的搜索效率,避免了陷入局部最優的局面。但是沒有使用有效的優化推理策略,判斷優化中的信息置信度。
5) CF-SOM (collaborative filtering-self-organ-izing feature map)[29],其結合提出模型中的所有得分數,將模型中的受益點結合起來,在自組織映射的基礎上通過過濾和內容的尋優提升了系統的精度但是降低了系統當中的速度。
6) 本文方法,綜合了以上方法中的迭代、變異、以及特征信息中的神經元方向等,在本文知識推理策略下進行算法的優化,對歷史特征中的信息采取了進一步的利用,提升算法的效率。
圖7 給出算法對真實值的跟蹤誤差,從圖7可以看出來,SOM 算法表現的效果為最差的,因為其在初始化網絡之后需要進行復雜的運算,對于局部最優值的效果表現不好;而DGSOM 算法雖然通過引入方向參數減少了學習次數,對整體系統的復雜度進行了化簡,在特征參數的表現下避免了整體的網絡激活特性,但是在個別樣本處的表現效果仍然不理想,因為其沒有對SOM 網絡運行過程中產生的優解進行進一步地操作;MOPSO 算法當中在考慮了最小約束集、路徑長度和成本等因素的條件下,構建個人最優和全局最優的迭代公式進行更新粒子的速度和位置,但是在迭代優化當中沒有對最優的粒子進行進一步地推理和利用,整體效果是比較良好的,但仍有待改進;ABC 算法中在雇傭蜂和觀察蜂的構造階段引入了遺傳算法中的交叉和變異操作,從而對鄰域的搜索策略進行更新,在保證多樣性的同時,確保了子代種群當中的多樣性,提升了全局搜索最優解的能力,但是由于多樣的變異操作,在部分樣本中出現了誤差增大的現象,降低了預測的效果;CF-SOM 算法中采用了將內容和過濾作為一種策略,利用自組織映射神經網絡對模型當中的優勝點進行了篩選,提升了一定的精度和準確度,但是犧牲了其在運行中時間方面的運行速度,并且在一定的局部表現出比較差的效果;本文算法在考慮迭代過程中優勝單元的同時,將每個優勝單元進行存儲,對于以往的優勝單元采取知識推理策略,將歷史信息進行最大化的開發,增強算法中的每代種群中的多樣性,并且引入置信度判斷,進一步提升了每次知識推理的準確性,引入知識推理框架提高了歷史特征信息的利用率,綜合考慮其迭代過程中的準確性和充分性,獲得了良好的效果。

圖7 預測誤差Fig.7 Prediction error
由圖7 可知,本文方法的整體效果更好。為了更加直觀地對比各方法的預測優化效果,圖8給出了工藝能耗真實值和各方法下的預測效果值。通過分析不同算法在不同切削速度區域的效果發現,在切削速度比較低的時候,SOM 算法出現了比較大的誤差,因為工藝過程中能耗不僅和切削速度有關系,還和多種工藝參數之間具有聯系,所以在真實值分布下,SOM 算法和ABC 算法在切削速度比較低的時候具有一定的預測誤差,而DGSOM 算法在切削速度中間部分的時候具有比較差的預測結果,MOPSO 算法和本文算法整體上在切削速度的低、中、高區域都具有相對較小的誤差。而CF-SOM 在切削速度比較低時表現得具有一定誤差,但是其在高區域表現得比較穩定;如三維柱狀圖中顯示的一樣,可以看出SOM算法在沒有優化措施的情況下表現效果比較差。而其他算法在不同的部分的表現效果是有優劣的。表1 為幾種方法之間的性能指標比較。由表1 可知本文方法在運行速度和準確性方面具有良好的表現。

表1 不同方法性能比較Table 1 Performance comparison of different methods


圖8 多種方法預測值和真實值統計Fig.8 Predictive value and true value statistics by multiple methods
由表1 的對比證明了本文方法的優越性,為了更加直觀地體現出本文算法在迭代過程中對于歷史特征信息的操作過程,選取了樣本中的切削速度、軸向切削深度和徑向切削深度,利用三維圖表現了在迭代過程中的解集變化,如圖9 所示。

圖9 本文方法迭代信息變化Fig.9 Iterative information changes of the method in this paper
在初次解集生成時可以看到生成的解集是具有多樣性的,但是沒有明顯的特征中心;在多次迭代過程中,通過知識推理過程將生成的特征信息進行利用,逐漸生成聚攏的特征信息,在多次迭代之后,發現特征樣本集的相似度得到了顯著的提升,通過知識推理實現了特征樣本的有效更新;在最終階段可以發現,已經完成了對過往歷史特征信息的充分利用,并且還保留著先前每次迭代過程中的存儲特征信息,通過對迭代過程中的信息充分利用,實現了比較良好的預測優化。上述分析對比驗證了本文方法的實際效果,發現在對特征信息樣本充分利用之后,可以在初始信息多樣性的情況下取得比較良好的預測優化效果。
本文所提出的方法,通過定義知識推理準則和知識推理框架,從協同訓練、多樣性的樣本、置信度判斷等多角度出發,實現了對于特征信息的有效利用,在充分利用特征信息樣本的情況下,結合知識推理框架大幅度提升了推理網絡的預測效果。用智能機床制造數據驗證本文算法的實際效果,實驗表明在多變量的具有多樣性樣本下,具有良好的預測優化效果,并且為特征信息的利用提供了一種新的思路。