王艷然 楊鵬飛


摘要:為了降低由于數據特征差異引起的數據辨識分類結果精確度較低的問題,提出基于深度學習的多源數據自動分類算法設計。首先提取了不同數據域數據的特征,在最小化數據特征損失的基礎上,采用深度學習的方法,對多源數據的特征進行分析,將分析結果作為數據分類的依據,實現數據的高精度分類。通過試驗對其進行測試,結果表明,所提方法在不影響分類效率的前提下,分類精度可達到95%以上,具有良好的實際應用價值。
關鍵詞:深度學習;數據特征;多源數據;自動分類
中圖分類號:TP399 ? ? ?文獻標識碼:A
文章編號:1009-3044(2022)05-0020-02
隨著大數據在各行各業的廣泛滲透,其種類和形式也越來越多樣化,因此,對于多源數據的分類成為現階段計算機領域的研究熱點[1]。通常情況下,多源數據具有內容要素種類差異性較大、數據來源廣泛的特點[2]。因此,對其進行分類時,主要是要對數據之間的內在關系進行準確識別。以此作為數據分類的基礎[3]。但是,由于多源數據包含的數據內容及結構更加多樣化,其特征差異也較大,因此,在對其進行分類時,難度也明顯高于一般的數據。對于此,已有學作出者做出了相關研究。其中,文獻[4]提出一種基于ReLU稀疏性特征的數據分類方法,實現了數據分類的準確度,但分類的精度較低,分類的粒度較大;文獻[5]提出一種基于數據信息融合的分類方法,有效提高了分類的效果,但其在進行分類的前期需要大量的融合計算,便捷程度有待提升。在不斷探索與研究過程中,人們逐漸發現了深度學習算法在數據分類中的獨特優勢,深度學習是以數據的特點為基礎,對數據進行分類[6],因此,可以減少分類過程中的大量冗余計算,提高分類結果的可靠性[7]。
基于此,本文提出基于深度學習的多源數據自動分類算法設計。并通過試驗對其有效性進行驗證。通過該研究,以期為數據分類方面的研究提供有價值的參考,提高數據的利用效率。
1基于深度學習的多源數據分類
1.1多源數據特征提取
為了實現對數據的精準分類,需要對數據的特征進行準確提取,通過對提取結果進行深度學習,實現對待分類數據的自動分類。本文建立了一種無監督的特征提取方式,在樣本數據之間構建非線性函數關系,使其擺脫多源數據本身存在標簽對樣本的限定。
首先,假設Xi和Yi分別表示來自不同數據域的數據信息,其中Xi表示位置數據,Yi表示內容數據,通過建立對二者之間存在的內在關聯進行挖掘,構建數據特征的跨區域轉換。由于Xi和Yi是同一數據表信息的不同數據源表征,因此,其對應關系也不局限于單一的數據域內,以數據元為單位的基本單元中也存在表征層面的相關性。因此,本文在對多源數據進行特征識別時,以數據元為基礎,對其內在關聯進行分析。得到Xi和Yi之間的跨區域轉換過程為:
[Ha,b(Xi)≈Yi] ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (1)
其中,[a]表示數據攜帶信息的權重,[b]表示數據的偏置參數。[Yi]作為數據域內數據特征的樣本,其中包含反向運算過程,其也是實現對多源數據間隱藏關聯優化的唯一標準。根據式(1)轉化后的數據,對其進行特征提取,其可表示為:
[ω=λHa,b(Xi)n] ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (2)
其中, [ω]表示最終得出數據特征參量,[λ]表示多源數據間的關聯強度,[n]表示數據的來源總數。
將得到的特征結果作為深度學習的內容,實現對多源數據內在關系的深入分析,為數據分類提供依據。
1.2基于深度學習的數據特征分析
在上述基礎上,得到不同數據域數據的特征,為了使數據分類結果具有更高的可靠性,本文采用深度學習的方式對特征進行分析,根據分析結果,對待分類數據進行自動分類處理。
首先,對多源數據間的關聯最小損失進行計算。在關聯損失中,共包含兩部分,分別為數據特征損失以及數據結構損失,因此設計損失目標函數為:
[P=Pmin=i=1nωin+i=1n(Xi+Yi)n] ? ? ? ? ? ? (3)
其中,Pmin表示最小損失,當P=Pmin時,表明數據特征的損失最小。通過對損失進行約束,避免由于數據關聯引起數據特征的丟失,提高深度學習結果的可靠性,確保數據分類的完整性。
以此為基礎,對多源數據特征進行深度學習,其可表示為:
[Tω=i=1nωinXi-Yi] ? ? ? ? ? ? ? ? ? ? ? (4)
[Ts=i=1n(Xi+Yi)nSIMMXi-Yi] ? ? ? ? ? (5)
其中,[Tω]表示深度學習得到的多源數據間的內容特征, [Ts]表示多源數據間的結構特征,[SIMM(*)]表示不同數據域數據的結構相似性。二者也是對多源數據進行自動分類時,判斷區所在類別的依據。
1.3多源數據自動分類
根據深度學習的結果,分別從數據內容特征及結構特征兩個方面實現對多源數據的自動分類。通過尋找到與其特征差異最小的數據類別,判斷其對應的分類結果,也就是計算待分類數據在上文的學習結果中的最優映射。
假設待分類數據c∈Rn,其中Rn表示其所在數據域范圍,則首先要根據其攜帶的數據信息的權重以及偏置變量對其特征進行計算,其可表示為
[ωc=f(ac+b)] ? ? ? ? ? ? ? ? ? ? ? ? (6)
[Sc=RnnSIMMc] ? ? ? ? ? ? ? ? ? ? (7)
其中,f表示激活函數。[ωc]和[Sc]分別表示其內容特征和結構特征。通過式(6)和式(7)得到待分類數據的特征,將其與深度學習結果進行映射尋優,其可表示為:
[sim(ωc,Tω)=(ωc+Tω)ωc?Tωsim(Sc,Ts)=(Sc+Ts)Sc?Ts] ? ? ? ? ? ? ? ? ? ? ? ?(8)
當sim(ωc,Tω)為最大值,且sim(Sc,Ts)也為最大值時,則認為該數據的分類結果與Tω所在的類別一致,以此實現對其的自動分類。
2試驗測試
為了測試本文設計算法的實際應用效果,進行了試驗測試。同時,為了確保測試結果具有更高的可靠性,分別采用文獻[4]和文獻[5]提出的分類方法同樣多試驗數據進行分類處理。通過對比三種方法的分類結果,對本文設計算法的有效性進行分析。
2.1測試環境
試驗采用的數據為Houston遙感數據,包含了一組某區域的全覆蓋機載高光譜圖像,以及對應的激光雷達數據。其中,具體的參數如表1所示。
在數據集中,共標定10類常見地表建筑物,對應編號為1~10,其中每種地表建筑物的訓練樣本與測試樣本的數目比為1:6。在此基礎上,分別采用三種方法對其進行分類。
2.2測試結果
在上述試驗環境下,分別采用三種分類方法對試驗數據進行分類處理,并對比了三種分類方法的分類結果,其結果如表2所示。
從表2中可以看出,三種分類方法的分類精度都可達到90%以上,其中文獻[4]方法的分類精度基本穩定在92%~94%之間,文獻[5]方法的分類精度基本穩定在93%~95%之間,而本文分類方法的分類精度始終在95%以上,且最高值可達97%,明顯優于另外兩種方法,表明其具有良好的分類效果。這主要是因為本文對數據進行分類前,首先對其特征進行分析,并在損失最小約束的條件下,對其進行深度學習,提高了學習結果的完整性,以此實現對多源數據的分類處理,提高了分類結果的可靠性。
在此基礎上,為了驗證本文設計方法的分類效率,對比了三種方法完成數據分類的耗時情況,其結果如圖1所示。
從圖1中可以看出,在三種分類方法中,文獻[5]分類方法的耗時相對較長,這與其前期的融合計算過程直接相關,本文方法與文獻[4]方法的耗時基本一致,并未出現增加分類時間的情況,這表明本文方法在提高分類精度的同時,并未對分類效率造成負面影響,具有實際應用價值,可實現在不影響分類效率的條件下,提高分類效果的目的。
3 結束語
在互聯網時代背景下,數據呈現出爆發式增長的趨勢,數據的多樣性也顯著增加,在此背景下,對數據進行準確分類成
了提高數據利用效率的關鍵環節。本文提出基于深度學習的多源數據自動分類算法設計,在不增加計算耗時的基礎上,實現了對多源數據的高精度分類,為數據分類研究提供了有價值的參考。在后的研究中,可以在現有研究內容的基礎上,加強在數據分類過程中的效率研究,降低數據分類的耗時,以滿足更大規模數據的分類需求。
參考文獻:
[1] 張曉丹.改進的圖神經網絡文本分類模型應用研究——以NSTL科技期刊文獻分類為例[J].情報雜志,2021,40(1):184-188.
[2] 王曉紅,諶鵬,劉芳,等.基于集成學習的強魯棒性三維點云數據分類研究[J].包裝工程,2021,42(3):252-258.
[3] 任磊,劉國慶,王麗華,等.一種新型高效的移動端深度學習圖像分類系統[J].物聯網技術,2021,11(5):58-63.
[4] 趙馨宇,黃福珍,周晨旭.基于ReLU稀疏性的MAXOUT卷積神經網絡的數據分類算法[J].上海電力大學學報,2020,36(3):280-284.
[5] 王宏濤,雷相達,趙宗澤.融合光譜信息的機載LiDAR點云三維深度學習分類方法[J].激光與光電子學進展,2020,57(12):348-355.
[6] 陳俊夫,皮德常,張強.一種基于遷移學習的遙測數據異常檢測方法[J].宇航學報,2021,42(4):522-530.
[7] 師蕓,馬東暉,呂杰,等.基于流形光譜降維和深度學習的高光譜影像分類[J].農業工程學報,2020,36(6):151-160,323.
[8] 李曉峰,王妍瑋,李東.基于層次化深度學習的醫療數據庫離群數據檢測算法[J].計算機系統應用,2020,29(3):180-186.
[通聯編輯:唐一東]
收稿日期:2021-10-15
作者簡介:王艷然(1991—),女,河南鄭州人,助教,碩士,研究方向為智能信息處理;楊鵬飛(1992—),男,河南新鄉人,助教,碩士,研究方向為虛擬現實、人工智能。