黃素葉
(閩西職業技術學院 信息與制造學院,福建 龍巖 364021)
目前信息時代不斷發展,面對海量的數據信息,分類標記成為一種應用廣泛的數據挖掘技術[1].該項技術的作用就是在數據被標記后,通過標簽能夠快速地獲取需要的信息[2].面對種類豐富且規模較大的數據時,分類標記已經無法滿足相關任務需求,必須進行深入研究.
文獻[3]采用多層極限學習機自動編碼器,優化輸入權重,提取電能質量擾動信號特征,采用多標簽排位分類算法,結合各標簽相關性,實現電能質量擾動分類,該算法具有較高的分類效率,但分類誤差較大.文獻[4]提出基于標簽關聯性的多標簽分類算法,建立多標簽Scratch分類模型,提取Block使用特征,計算思維技能和復雜度分類特征,按照多標簽之間關聯性,劃分標簽子集,訓練標簽集子分類器,實現多標簽分類,該算法的具有較強的適用性,但分類效果較差.針對上述問題,提出基于隱空間映射的聯合嵌入式多標簽分類算法研究,由于其具有迭代次數少并且數據收斂性較高的特點,被率先在電路優化項目中,此后逐漸被應用到數據標記領域.
多標簽分類主要是將待分類的文本歸檔到一個或多個標簽中的過程.設定左側空間A中包含n個實例,右側標簽空間B中包含q個類別標簽,通過對應的訓練集得出標簽結果,當標簽數量較多時,這個過程就是多標簽分類[5].多標簽分類任務是建立在標簽的基礎上,先考慮單個標簽在所有樣本上的結果,然后選取平均值進行標簽分類[6-7].由于標簽類別不平衡存在正例和負例問題,因此選擇二分類損失焦點函數作為多標簽分類指標獲取的有效手段.公式如下:

其中,β與α為超參數,當k=1時,表示標簽類別為正例,k=0時,表示標簽類型為負例.通常情況下,β表示損失函數更注重樣本數較少的正例樣本,α一般為大于0的正數,表示損失函數需重點處理難分類的樣本.假設兩個正例樣本經過預測后的概率分別0.4和0.8,由于0.8的數值較大,因此更容易被分辨,融入系數α后,其損失前函數表示為0.2α;概率為0.4的樣本損失前系數為0.6α,根據指數為正的冪函數的單調遞增特性,得出概率較小的正例系數更大的結論[8-10].k的數值越小,曲線越平滑,符合焦點損失函數特征,多標簽分類指標獲取完成.
根據多標簽分類指標,提取聯合嵌入式多標簽參數特征,對標簽空間B進行聯合嵌入學習,采用矩陣分解的方式得到標簽空間B的潛在表示項Q和對應的解碼矩陣W,即:

其中,B表示標簽空間,bgh指的是空間B中第g行第h列的元素,Pos(ug)表示(ug)包含的標簽集合,經過上述處理后,對實例空間A與標簽空間B進行緊密耦合,使二者在空間布局中具有最大相關性,具體計算公式為:

其中,Em∈Rns是指單位矩陣,ns表示潛在空間的維度,K表示聯合嵌入向量.對矩陣分解部分進行參數優化,以便后續進行特征提取,表現為在對某個具體參數進行優化時,同時固定其它所有參數[11].將公式(1)的損失函數的參數變量置0,則聯合嵌入式多標簽參數可表達為:

其中,L和H空間維度,η表示多標簽分類的學習速率,▽LΩ表示目標函數Ω對權值矩陣L的梯度,▽H Ω表示的是目標函數對權值矩陣H的梯度.經過矩陣分解等步驟,完成對多標簽參數特征的提取.
由于隱空間映射算法的映射關系在粗糙結構中難以被分辨,因此,需要將粗糙結構和空間映射關系融為一個整體,定義為替代結構,針對替代結構進行呼叫即可得到響應[12-13].隱空間映射關系是通過對多標簽參數的指標和特征進行提取并加以處理,以及對多標簽參數進行篩選優化,保證粗糙結構與精確結構的響應方式一致,在處理后的粗糙結構中繼續優化其他參數[14-15].設定在第p次迭代過程中,將設定為第p次粗糙結構的標簽參數,將作為第p次優化后滿足結果的粗糙結構標簽參數,x(p)表示第p次的預選參數量,因此,第p次粗糙結構的響應表示為,第p次迭代的目的是為了對標參數xe、xa與x之間的映射關系S,具體表現為:

在公式(5)中,獲取x(p)的過程在隱空間算法中是參數處理的過程,則:

在滿足公式(6)的前提下,則下述公式成立:

根據公式(5)~(7),得出基于隱空間映多標簽分類算法,先將參數x=0代入算法,如果不滿足條件,則對x+1進行迭代計算,直到得出符合條件的參數.將隱空間映射作為多標簽分類算法的基礎,其主要思想是對原始標簽參數進行迭代計算,基于以上步驟,完成多標簽分類算法構建.
為了驗證基于隱空間映射的聯合嵌入式多標簽分類算法的有效性,在Intel(R)Core(TM)i3-2120 CPU @ 3.30 GHz,8.00 GB 內存,32 位 Window 7 操作系統的電腦上運行,對多標簽位置進行定位,為進行多標簽分類效果測試提供數據基礎.設定多標簽組在基站的三維立體坐標表示為(ai,bi,ci),由此得到基站i(i=1,2,3…)到基站m(m=1,2,3…)之間的水平距離di,m的表達公式為:

已知基站A的三維坐標位置為(a1,b1,c1)、基站B的三維坐標位置為(a2,b2,c2),把兩個基站內的標簽坐標映射到二維水平面上,其坐標分別表示為(a1,b1),(a2,b2)根據余弦定理公式進行求解:

其中,si表示的是標簽到基站A之間的水平距離,sm表示的標簽到基站B的距離,di,m表示的是基站i到基站m之間的距離,待定位標簽節點投影到基站A和基站B之間的所在直線,得到該標簽的投影標簽,該投影標簽的坐標在基站A和基站B的所在直線上,其坐標表示為(a',b'),得到待定標簽的位置.
在此基礎上,隨機選取8、16組標簽,分別采用文獻[3]算法、文獻[4]算法和本文算法,對比在不同條件下的多標簽分類算法的分類效果.根據簡單條件下不同算法的多標簽分類對比結果可看出,在簡單條件下一共有8組標簽,本文算法能夠對空間內的標簽進行有效分類,并且沒有丟失,而文獻[3]算法和文獻[4]算法都丟失了2組標簽(見圖1).

圖1 在簡單條件下不同算法的分類效果對比
根據復雜條件下不同算法的多標簽分類對比結果可看出,在復雜條件下一共有16組標簽,本文算法均對16組標簽進行了有效分類,而文獻[3]算法丟失了4組標簽,文獻[4]算法丟失了5組標簽,由此可知,該算法的分類效果較好(見圖2).為了進一步驗證本文算法的分類精度,將Hammningloss、MicroF1以及Accuracyde分類指標作為8組標簽的評價指標,對比3種分類算法的分類誤差,誤差數值越小,表明分類精度越好,其對比結果見表1.

表1 不同分類指標分類誤差對比結果

圖2 在復雜條件下不同算法的分類效果對比
由表1可知,本文算法的分類誤差值均小于文獻[3]算法和文獻[4]算法,由此可知,該算法的分類精度較高.
筆者提出了基于隱空間映射的聯合嵌入式多標簽分類算法,在一定程度上提高了聯合嵌入式多標簽分類精度,確保了分類效果.但由于研究條件有限,此次設計的分類算法對稀疏標簽的處理能力還有待提高.