溫志峰



摘? 要:針對傳統特征標記方法在面對海量的網絡數據時出現的定位目標信息困難、時間和空間開銷較大等問題,提出基于加權遺傳算法的互信息特征反饋標記方法。首先優化數據處理流程,對目標數據特征進行加權處理,得到近似全局最優解;其次用戶對文本特征或者圖像實例完成標記,基于用戶的標記與未標記情況構建雙重監督圖;最后建立實數值推測函數并計算,獲取雙重監督圖中未標記的結點。通過仿真實驗結果,驗證了方法誤差較小、檢索精度較高,能夠實現在大量的數據中快速找到目標內容。
關鍵詞:加權遺傳算法;互信息;雙重監督圖;實數值函數;近似全局最優解
中圖分類號:TP391.1;TP391.9 文獻標識碼:A 文章編號:2096-4706(2023)15-0087-04
Feature Marking Algorithm Based on Dynamic Weighted Conditional Network Data
WEN Zhifeng
(College of Information Engineering, Guangdong Innovative Technical College, Dongguan? 523960, China)
Abstract: Aiming at the problems that difficulties of locating target information, large time and space costs of traditional feature marking methods in the face of massive network data, a mutual information feature feedback marking method based on Weighted Genetic Algorithm is proposed. In this method, the data processing flow is optimized first, and the target data features are weighted to obtain an approximate global optimal solution. Then, the users mark text features or image instances, and a double supervision chart is constructed based on the user's marked and unmarked conditions. Finally, a real value speculation function is established and calculated to obtain unmarked nodes in the double supervision chart. The simulation results verify that the method has small error and high retrieval accuracy, and can quickly find the target content in a large amount of data.
Keywords: Weighted Genetic Algorithm; mutual information; double supervised graph; real valued function; approximate global optimal solution
0? 引? 言
隨著社會步入大數據時代,各個行業都能收集到大量種類多且價值密度低的數據。各行各業都希望從PB級大數據中分析出潛在且有價值的數據,以獲取更大的利益[1]。面對數量如此巨大的信息,想要從中找到自己需要的信息簡直就如大海撈針一般困難,所以,如何在海量、無序化、多樣繁雜的數據信息中快速找到所需的信息,是如今亟待需要解決的難題之一[2]。
在交互信息中尋找自己所需的信息,特征反饋標記方法就起到了很大的作用。也有不少相關學者對此展開研究。文獻[3]提出一種新的模糊粗糙集模型,并將此模型應用于多標記特征選擇。文獻[4]認為可以利用模糊辨識關系,重新定義樣本和標記的重要性度量,提出基于雙空間模糊辨別關系的多標記特征選擇算法。文獻[5]提出基于互信息標記?;奶卣鬟x擇算法,先用聚類將標記粒化為多個標記粒,再基于最大相關和最小冗余準則進行特征選擇。針對上述方法存在的問題,本文提出了基于加權遺傳算法的互信息特征反饋標記方法。
1? 標記特征選擇分析
在多標記學習中,“維數災難”問題一直困擾著研究者?!熬S數災難”不僅提高了算法時空復雜度,同時也降低了學習器的精度。為此國內外學者提出了大量多標記降維方法。同單標記學習類似,可以將多標記降維方法分成兩種類型,一種是多標記特征提取方法,另一種是多標記特征選擇方法。常見的多標記特征提取的方法有偏最小二乘法(Partial Least Squares, PLS)、線性判別分析(Linear Discriminant Analysis, LDA)、典型關聯分析法(Canonical Correlation Analysis, CCA)。雖然特征提取的方法對算法的分類性能有一定的提高,但提取出新的特征空間會失去原始特征空間的物理意義,換句話說就是破壞了原始特征空間的結構,這樣分析出來的信息就會不盡如人意。因此,許多人就轉而研究多標記特征選擇方法[6-8]。
信息檢索流程如圖1所示。網民首先輸入要檢索的關鍵詞或者是圖片信息,系統根據任意排序函數給出Top-n個結果。如果用戶對檢索結果不滿意,繼續輸入檢索,系統根據用戶再次輸入的信息提供給用戶待標記的文本特征或者圖像實例[9,10],用戶完成標記后,標記了“相關”的文本特征或者圖像實例的正例點的yi值賦予1,負例點為0。然后系統利用啟發式視覺特征標注法(也稱為混合反饋)和構建雙重監督圖的方法計算用戶為標記的文本特征或者圖像實例的f值,并對其進行排序后反饋給用戶Top-n個檢索結果,此過程直到用戶檢索到滿意的結果終止。
2? 基于加權遺傳算法的網絡數據特征反饋標記
2.1? 加權遺傳算法下加權計算
互信息是通過信息實時共享提供給用戶最優的上網體驗,通過對互信息數據進行融合與整理,確定統一的語義格式,以及信息的檢索流程和傳播規律,憑借加權遺傳算法將用戶賦予數據的多特征問題轉換為單一特征進行計算。將m1、m2設為網絡節點和特征信息的權重因子,使m1 + m2 = 1,根據權重因子,構建目標函數,并求解目標函數,獲取全局最優解。
2.1.1? 種群初始化
計算加權后m1、m2的成本值可獲得近似全局最優解,那么即可通過編碼的形式得到最優特征信息。在編碼中按照實數編碼的方式,假設有3個特征信息可供選擇,編號分別為1、2、3;假設有10個基因位,將這3個特征信息隨機與這10個基因位進行匹配。列舉一個例子來更好地說明該方法:假設有10條染色體,分別為1,3,2,2,3,1,2,1,1,3,染色體的運動過程即為特征信息與基因位的匹配方式,那么就有特征信息1:0→1→6→8→9;特征信息2:0→3→4→7;特征信息3:0→2→5→10。0表示的是網絡節點。這樣就得到了一種算法,通過改變種群的大小就可得到不同數量的算法,完成種群的初始化。
2.1.2? 交叉操作
假設Pc表示交叉概率,并且該值不變,再假定一個隨機數值,將隨機數的值與Pc值進行對比,如果Pc值大于隨機數的值,則對染色體進行交叉操作,如果Pc值小于隨機數的值,則不需要對染色體進行交叉操作。首先對染色體的交叉點進行確定,確定后對兩條染色體進行交叉操作,從而獲取全新的兩條染色體,上述即為交叉操作的流程。
2.1.3? 變異操作
假設Pm為變異概率,并且該值同樣保持不變,再假定一個隨機數值,將隨機數的值與Pm值進行對比,如果Pm值小于隨機數的值,則對染色體進行變異操作,首先對染色體的變異點進行確定,確定后對兩條染色體進行變異操作,從而獲取全新的兩條染色體,上述即為變異操作的流程。
2.1.4? 適應度計算及其排序
根據特征信息的成本值建立適應度函數,將所有染色體代入適應度函數中,根據所得結果按照從小到大的順序進行排列。每一次迭代計算中,只保留最優染色體,所得結果即為近似全局最優解。
2.1.5? 加權遺傳步驟
加權遺傳算法的基本步驟如圖2所示。
1)創建初始種群NIND,染色體的個數設為NP個。
2)對染色體進行交叉操作。
3)交叉操作后,對染色體結構進行變異。
4)建立適應度函數,計算所有染色體的適應度函數并保留最優染色體。
5)設定迭代次數并進行迭代計算,找出最優染色體并對其進行加權計算。
6)找出近似全局最優染色體。
7)結束計算。
2.2? 構建特征反饋標記的雙重監督圖
對互信息中的數據完成用戶視角下數據特征的加權計算后,通過文本特征和圖像實例進行特征反饋標記,這里采用構建雙重監督圖的方式來實現。假設網絡中有n個圖像實例、m個文本特征和k個視覺特征,使得t = n + m + k為特征信息總和。用戶完成標記后,獲得了l個數據信息(x1,y1),(x2,y2)…(xl1,yl1),(xl1+1,yl1+1)…(x1,y1),y1∈{-1,1},其中,前l1個表示的是文本特征與標簽,后l~l1個表示的是圖像實例與標簽。假設有u個特征未標記,那么u = n + m + k - l,其中l<
2.2.1? 構建標記推測函數
在圖像G上構建一個實數值函數f:V→?,使得圖中所有的標記樣本都滿足條件:f (i ) ≡ fl (i ) ≡ yi。這里在基于圖的半監督學習法的基礎上,提出假設“相近的點具有相同的標記”,同理可知,相近的未標記的點也具有相同的標記。以此假設為基礎,定義二次能量函數為:
式中,f表示標記樣本i、j的實數值函數。
再利用高斯場為f函數定義一個概率分布:
其中,β表示逆溫參數。Zβ在所有已經標記的樣本中利用f函數進行了歸一化處理。
2.2.2? 計算推測函數
為了簡便計算過程,將W矩陣分成4塊:
綜上所述,本文提出的基于加權遺傳算法的互信息特征反饋標記方法的具體流程如圖4所示。
3? 仿真實驗分析
為了驗證本文提出的基于加權遺傳算法的互信息特征反饋標記方法在實際應用中的有效性,進行一次仿真實驗分析。將文獻[3]方法和文獻[4]方法作為對比方法,且文獻[3]方法、文獻[4]方法和本文方法所處的實驗環境、網絡條件以及用戶對數據的反饋均為相同的。本文通過檢索精度和效率來從側面驗證標記方法的優劣。對比結果如圖5和表1所示。
從圖5中的曲線變化可以看出,本文方法與其他兩種方法相比有著較高的檢索精度,且整體變化平穩,無較大的波動。
從表1中可以看出,與其他兩種方法相比,本文方法有著較高的檢索效率。這是由于本文利用加權遺傳算法將復雜的用戶反饋簡化為單一問題計算,降低了冗余信息對反饋標記的干擾,同時減少了繁雜的計算過程,使標記結果更符合互信息用戶需求。
4? 結? 論
為了讓網民在海量的計算機數據中快速找到自己所需的信息,本文提出了基于加權遺傳算法的互信息特征反饋標記方法。通過數據資源的融合與整理、數據資源特征反饋傳播路徑和信息檢索步驟分析,采用加權遺傳算法對特征信息進行加權計算,得到近似全局最優解,根據用戶對特征信息的標記與未標記情況構建雙重監督圖以及實數值推測函數,更深層次的了解用戶的需求。通過仿真對比實驗,檢驗了所提的互信息特征反饋標記效果好、檢索時間短、效率高及精度高,體現了所提方法的優越性。
參考文獻:
[1] 孫林,徐楓,王振,等.基于標記權重和mRMR的多標記特征選擇 [J].山西大學學報:自然科學版,2023,46(1):40-52.
[2] 孫林,杜雯娟,李碩,等.基于標記相關性和ReliefF的多標記特征選擇 [J].西北大學學報:自然科學版,2022,52(5):834-846.
[3] 徐久成,申凱麗.基于雙空間模糊鄰域相似關系的多標記特征選擇 [J].模式識別與人工智能,2022,35(9):805-815.
[4] 程玉勝,李雨,王一賓,等.結合滑動窗口與模糊互信息的多標記流特征選擇 [J].小型微型計算機系統,2019,40(2):320-327.
[5] 盧舜,林耀進,吳鎰潾,等.基于多粒度一致性鄰域的多標記特征選擇 [J].南京大學學報:自然科學版,2022,58(1):60-70.
[6] 姚二亮,李德玉.多標記特征選擇算法的綜述 [J].鄭州大學學報:理學版,2020,52(4):16-27.
[7] 李閃閃,潘正高.基于互信息的多標記特征選擇 [J].宿州學院學報,2019,34(5):61-67.
[8] 廖大強.基于徑向基函數神經網絡的數據關聯挖掘算法設計 [J].科技通報,2019,35(8):125-128.
[9] 程玉勝,陳飛,王一賓.基于粗糙集的數據流多標記分布特征選擇 [J].計算機應用,2018,38(11):3105-3111+3118.
[10] 孫林,潘俊方,張霄雨,等.一種基于鄰域粗糙集的多標記專屬特征選擇方法 [J].計算機科學,2018,45(1):173-178.