999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于匹配自主學習的網絡信息識別與分類算法

2024-06-30 13:42:07曾光輝
自動化與信息工程 2024年3期

曾光輝

摘要:為提升網絡信息的識別與分類準確率,針對海量網絡信息的高維、高噪等特點,提出基于匹配自主學習的網絡信息識別與分類算法。首先,利用支持向量機對網絡信息進行識別;然后,通過奇異值分解算法構建檢索矩陣進行奇異值分解、相關性查詢;接著,計算網絡信息的相似性匹配度,并將匹配度較高的網絡信息輸入到卷積神經網絡中進行學習、訓練;最后,輸出網絡信息分類結果。實驗結果顯示,該算法網絡信息識別準確率達到97.90%以上,針對不同類別網絡信息的平均分類準確率為98.04%,證明了該算法在實際應用中的有效性。

關鍵詞:匹配自主學習;網絡信息;支持向量機;奇異值分解;卷積神經網絡;識別與分類

中圖分類號:TP309 ???????? 文獻標志碼:A ????? ?? 文章編號:1674-2605(2024)03-0007-06

DOI:10.3969/j.issn.1674-2605.2024.03.007

Network Information Recognition and Classification Algorithm Based on Matching Autonomous Learning

Abstract: To improve the accuracy of network information recognition and classification, a network information recognition and classification algorithm based on matching autonomous learning is proposed to address the high dimensionality, high noise and other characteristics of massive network information. Firstly, using support vector machine to recognize network information; Then, a retrieval matrix is constructed using singular value decomposition algorithm for singular value decomposition and correlation queries; Finally, calculate the similarity matching degree of network information, and input the network information with higher matching degree into the convolutional neural network for learning and training, outputting the network information classification results. The experimental results show that the network information recognition accuracy of the algorithm reaches over 97.90%, and the average classification accuracy for different types of network information is 98.04%, which has certain practical application effectiveness.

Keywords: matching autonomous learning; network information; support vector machine; singular value decomposition; convolutional neural network; recognition and classification

0? 引言

在當前的信息時代,網絡信息呈海量式與爆炸式增長[1]。網絡信息不僅涉及多個特征,如文本內容、圖像像素、格式類別等,還包含大量的干擾或噪聲,如文本拼寫錯誤、圖像噪點或失真、網絡攻擊等,故其應用性與安全性受到相關研究人員的重視。網絡信息的識別與分類是提升其應用性與安全性的基礎[2-3]。

周家愷等[4]基于樸素貝葉斯對網絡信息進行特征識別,識別效率較高,但易受來源數據噪聲影響,識別精準度還有一定的提升空間。朱方娥等[5]提出基于分類規則挖掘的數據多標記特征分層識別方法,特征識別及分類的準確度較高,但較為依賴數據來源,需進行更加完善的數據預處理。

本文提出一種基于匹配自主學習的網絡信息識別與分類算法。通過支持向量機、奇異值分解算法、卷積神經網絡的匹配應用,實現網絡信息的識別與分類。

1? 算法流程

匹配自主學習算法是指對輸入數據進行匹配并比較的自主學習算法。自主學習算法以多智能體深度強化學習類方法為代表,通過構建認知智能體,自動學習和獲取復雜系統深層次的規律[6]。

本文引入自主學習算法中的支持向量機、奇異值分解算法、卷積神經網絡對網絡信息進行識別與分類。基于匹配自主學習的網絡信息識別與分類算法流程如圖1所示。

本文利用支持向量機實現網絡信息的識別;采用奇異值分解算法提取異常網絡信息的特征向量;運用一維卷積神經網絡算法分類處理異常網絡信息[7]。其中,一維卷積神經網絡不易出現信息損耗、丟失和信息畸變等問題,可提升網絡信息識別與分類的效率。

2 網絡信息識別

支持向量機能夠處理高維特征空間的分類問題,通過構建最優的超平面來實現數據分類,可有效地處理小樣本問題,且對未見過的數據具有較好的泛化能力,減少過擬合風險。首先,對網絡信息進行觸發詞檢測預處理,并均等分為訓練數據集與測試數據集[8];然后,利用支持向量機對訓練數據集中的數據進行訓練,構建網絡信息識別模型;接著,將測試數據輸入到網絡信息識別模型,界定網絡信息識別閾值;最后,得到網絡信息的識別結果。基于支持向量機的網絡信息識別流程如圖2所示。

網絡信息的主要特征表現為海量性與高度開放性[9]。若對全部的網絡信息都進行分析處理,將降低網絡信息的識別效率,同時分析不重要的網絡信息也會提升識別成本。因此在對網絡信息進行識別與分類前,采用觸發詞檢測方法對網絡信息進行預處理,清除網絡信息中的無用信息,減少數據維度。觸發詞是可最大限度地反映事件的詞語。

利用支持向量機訓練網絡信息識別模型,獲得網絡信息性能指標曲線與閾值查閱表,由此可獲取網絡信息識別閾值[10]。基于該網絡信息識別閾值對測試數據集的網絡信息進行識別,確定其為正常網絡信息或異常網絡信息。基于支持向量機的網絡信息識別,以徑向基函數(radial basis function, RBF)為核函數,以接受者操作特性曲線(receiver operating characteristic curve, ROC)與坐標軸圍成的面積(area under curve, AUC)為識別參數優化指標,對懲罰系數與核函數進行優化;同時引入交叉驗證的方法避免支持向量機出現過擬合。

基于支持向量機的網絡信息識別過程描述如下:

設為訓練數據集,和分別表示第i個網絡信息向量和的類別標簽。以為樣本點,構建最優超平面,即網絡信息識別模型的計算過程為

式中:為超平面的法向量,分別為懲罰系數與網絡信息識別的誤項。

其約束條件為

式中:為超平面的常數項。

3 網絡信息分類

3.1 基于奇異值分解算法的相似性匹配度計算

在網絡信息特征分類之前,先對網絡信息進行特征提取[11]。將網絡信息識別模型輸出的識別結果作為輸入,采用奇異值分解算法進行特征提取。通過隱含語義提取,清除不相關詞匯,得到關鍵詞向量,目標特征描述矩陣向量間的內在屬性;對目標特征進行變換與分解處理,得到的相似性匹配結果作為輸出,具體過程如下:

1) 構建詞條——文檔矩陣,對待提取特征的網絡信息文檔進行處理,清除不相關詞匯,獲取網絡信息文檔的關鍵詞向量,維數為n。若網絡信息文檔包含m個文件,則可獲取一個n × m維矩陣。奇異值分解算法將詞條——文檔矩陣分解為3個不同的矩陣,公式描述為

式中:描述網絡信息文檔內不同詞條間的相關性[12],描述網絡信息不同文檔間的相關性,均為正交矩陣;為對角矩陣。

考慮到矩陣均具有線性獨立特性,可通過近似矩陣取代進行分析,如公式(4)所示。

式中:分別為的前K列,為包含X的前K個最大奇異值,;,由此可提升特征提取效率。

2) 網絡信息文檔中的若干個關鍵詞通過變換生成一個K維向量,其代表一個虛文檔,將與文檔相關性矩陣內的文檔向量進行對比,得到相似性匹配結果[13]的計算公式為

(5)

值越大,表明網絡信息相似性匹配度越高,分類效果較好;值越小,表明網絡信息相似性匹配度越低,分類效果較差。

應用奇異值分解算法進行網絡信息特征提取的過程中,在一定程度上去除了網絡信息中的噪聲或異常點,通過保留主要的奇異值和特征向量,可以恢復經去噪處理后的原始信息,為后續網絡信息的精準分類提供保障。

3.2 基于卷積神經網絡的網絡信息分類

根據網絡信息特征建立一維卷積神經網絡分類模型,實現網絡信息的分類處理。一維卷積神經網絡模型包括輸入層、卷積層、池化層、全連接層、輸出層等,輸出層可輸出網絡信息的分類結果,結構如圖3所示。

一維卷積神經網絡模型的輸入是相似性匹配結果。

卷積層作為一維卷積神經網絡的核心,主要負責對網絡信息進行稀疏連接[14],降低網絡信息特征的參

數量。利用公式(6)確定卷積層的輸出

式中:和e分別為激活函數和網絡信息特征數量,為第j個網絡信息數據,分別為輸出偏置與卷積核尺寸。

池化層主要負責進一步降低卷積層輸出的特征參數,同時保留網絡信息的主要特征[15]。利用公式(7)描述最大池化函數為

(7)

式中:分別為池化層移動步長和池化尺寸。

在卷積層與池化層的逐漸堆疊下,不僅能夠提取網絡信息的深層特征,還能夠顯著降低參數量。

將提取的網絡信息特征轉換為一維向量,并輸出至全連接層進行分類,其中為最后一層池化層的神經節點數量。

輸出層是一維卷積神經網絡的最后一層,其輸出的結果即為網絡信息所屬類別

式中:為全連接層的輸出,分別為網絡信息類別的索引和全部網絡信息的數量。

4 實驗分析

4.1 實驗準備

為驗證本文算法在實際網絡信息識別與分類中的效果,分別對網絡信息識別、特征向量提取、網絡信息分類的性能進行測試。

實驗環境為Ubuntu 18.04操作系統,Python3.7編程語言,TensorFlow2.0開發框架,具備GPU加速功能的NVIDIA GeForce RTX 2080 Ti。計算資源方面,Intel Core i7-8700K CPU @ 3.70 GHz的計算機,32 GB內存。觸發詞匹配閾值設定為0.7,當網絡信息中某個詞與觸發詞的相似度高于0.7時,將該詞輸入到綜合數據庫中以待后續處理;當網絡信息中某個詞與觸發詞的相似度低于0.7時,忽略或丟棄該詞。奇異值分解降維維度設置為100維,卷積核大小設置為3、5和7,以便對不同尺度的網絡信息進行特征提取,利用最大池化對網絡信息特征進行降維。

實驗數據集選取KDD cup 99數據集,包括正常網絡信息(文本信息、圖片信息、視頻信息)、異常網絡信息(虛假信息、攻擊信息)共4 909 542條。其中,攻擊信息包含6種類型,如表1所示。

4.2 支持向量機訓練

選取KDD cup 99數據集的50%,即2 454 771條網絡信息作為訓練樣本進行訓練,得到支持向量機的網絡信息識別準確率波動圖如圖4所示。

由圖4可知:隨著支持向量機迭代次數的增加,網絡信息識別準確率也逐漸提高,當迭代次數小于30次時,識別準確率提高速度較快;當迭代次數大于30次時,識別準確率提高速度逐漸趨于平緩;當迭代次數達到40次時,識別準確率穩定在98.70%左右。至此,完成網絡信息識別模型的訓練。

4.3 實驗結果與分析

4.3.1 網絡信息識別性能測試

利用訓練好的網絡信息識別模型對KDD cup 99數據集剩余的50%,即2 454 771條網絡信息進行識別,判斷網絡信息狀態。為驗證本文算法的性能,選取文獻[4]的基于樸素貝葉斯方法和文獻[5]的基于分類規則挖掘方法進行對比實驗,結果如表2所示。

由表2可知:隨著測試樣本數據量的增加,3種方法的識別準確率均有所下降,在測試樣本數據量為10 000條時,本文算法、基于樸素貝葉斯方法、基于分類規則挖掘方法的識別準確率最高,分別為99.21%、97.87%、95.79%;在測試樣本數據量為2 454 771條時,3種方法的識別準確率最低,分別為97.90%、95.73%、93.57%,表明測試樣本數據量對準確率造成影響,且本文算法具有較高的網絡信息識別性能。

4.3.2 特征向量提取性能測試

對于相同的網絡信息,不同方法提取的特征向量會有所差異。采用本文算法與基于樸素貝葉斯方法、基于分類規則挖掘方法分別進行網絡信息特征向量

提取性能對比實驗,以方差、偏度、峰度為評估指標。其中,方差越大,說明樣本數據在這一維度上的差異性越大,數據包含大量的噪聲或異常值;偏度用于衡量數據分布的不對稱性,正值表示數據右偏,負值表示數據左偏,接近0表示數據近似對稱;峰度正值表示尖峭峰,即比正態分布更集中,而負值表示平坦峰,即比正態分布更平緩,峰值大說明存在極端值。3種評估指標的計算公式為

式中:為整體的樣本數據,為樣本數量,為第i個樣本數據,為樣本均值。

本文算法與基于樸素貝葉斯方法、基于分類規則挖掘方法的特征向量提取性能對比結果如表3所示。

由表3可知:隨著關鍵詞數量逐漸增加,3種方法的特征向量方差也逐漸增大,說明關鍵詞數量越多,特征提取的難度越大,越容易存在噪聲;在不同關鍵詞數量下,3種方法均保持較小且接近0的偏度,表明特征向量分布相對對稱,本文算法的偏度值穩定且偏負,顯示特征向量分布可能略向左偏,相比之下,另外2種方法在關鍵詞數量增多時偏度值增加,說明其分布偏斜較大;本文算法特征向量的峰度相對另外2種方法較低,說明特征提取后,極端值較少,特征向量提取效果較好。

4.3.3 網絡信息分類性能測試

采用本文算法、基于樸素貝葉斯方法、基于分類規則挖掘方法對識別的2 454 771條網絡信息進行分類處理,結果如表4所示。

由表4可知:本文算法的平均分類準確率為98.04%;基于樸素貝葉斯方法和基于分類規則挖掘方法的平均分類準確率分別為95.29%和92.44%,驗證了本文算法對網絡信息的分類準確率較高、分類處理性能較好。對異常網絡信息的精準分類能夠更好地對攻擊信息采取相應的防御措施。

5 結論

本文研究基于匹配自主學習的網絡信息識別與分類算法,利用自主學習算法中的支持向量機、奇異值分解算法、一維卷積神經網絡實現網絡信息的識別與分類。實驗結果顯示,該算法的網絡信息識別準確率、特征向量提取性能以及網絡信息分類準確率均較高,說明該算法具有較好的應用性能。在本文算法研究的過程中,受時間與經費的限制,在處理大規模網絡信息時,算法的運行效率受到一定程度的限制。因此,未來將會探索更高效和可擴展的算法形式,以應對大規模網絡信息的識別與分類。

參考文獻

[1] 周毅,張雪.網絡信息內容生態安全風險整體智治的理論框架與實現策略研究[J].圖書情報工作,2022,66(5):44-52.

[2] 韓正彪,馬毛寧,翟冉冉.網絡學術信息搜索中用戶情感的識別及變化研究[J].情報學報,2022,41(3):314-324.

[3] 蔣岑,吳迪.隱蔽無線通信網絡傳輸信息云存儲密文檢索[J].計算機仿真,2021,38(6):125-128;137.

[4] 周家愷,綦方中.網絡流量時延特征數據的識別方法仿真[J].計算機仿真,2022,39(5):398-401;460.

[5] 朱方娥,郭建方,曹麗娜.基于分類規則挖掘的數據多標記特征分層識別[J].計算機仿真,2021,38(4):310-314.

[6] 朱曉慧,錢麗萍,傅偉.基于生成對抗網絡增強惡意代碼的方法[J].計算機工程與設計,2021,42(11):3034-3042.

[7] 高昂,郭齊勝,董志明,等.基于EAS+MAD RL的多無人車體系效能評估方法研究[J].系統工程與電子技術,2021,43(12): 3643-3651.

[8] 蔣麗,黃仕建,嚴文娟.基于低秩行為信息和多尺度卷積神經網絡的人體行為識別方法[J].計算機應用,2021,41(3):721-726.

[9] 陸曉松,王國慶,李勖之,等.場地環境大數據采集和機器學習方法在污染智能識別中的應用研究進展[J].生態與農村環境學報,2022,38(9):1101-1111.

[10] 張澤鋒,毛存禮,余正濤,等.融入領域術語詞典的司法輿情敏感信息識別[J].中文信息學報,2022,36(9):76-83;92.

[11] 陳思佳,羅志增.基于長短時記憶和卷積神經網絡的手勢肌電識別研究[J].儀器儀表學報,2021,42(2):162-170.

[12] 向志華,梁玉英.基于機器學習的視頻識別與自適應推送算法[J].沈陽工業大學學報,2022,44(3):336-340.

[13] 張玲,衛傳征,林臻彪,等.一種基于機器學習的Tor網絡識別探測技術[J].電子技術應用,2021,47(4):54-58.

[14] 華萌萌,尹君,胡召玲,等.基于機器學習的歷史氣候重建論文智能識別與數據挖掘初探[J].第四紀研究,2021,41(2): 550-561.

[15] 宋雅文,楊志豪,羅凌,等.基于字符卷積神經網絡的生物醫學變異實體識別方法[J].中文信息學報,2021,35(5):63-69.

主站蜘蛛池模板: 精品午夜国产福利观看| 国产三级视频网站| 超碰91免费人妻| 免费毛片网站在线观看| 日韩高清在线观看不卡一区二区| 91国内在线观看| 国产乱子伦无码精品小说 | 99激情网| а∨天堂一区中文字幕| 亚洲美女一区| 国产特一级毛片| 欧美激情网址| 国模在线视频一区二区三区| 国产粉嫩粉嫩的18在线播放91| 在线欧美国产| 内射人妻无码色AV天堂| 国产精品无码一二三视频| 欧美成人h精品网站| 国产精品嫩草影院av| 久久99久久无码毛片一区二区 | 暴力调教一区二区三区| 国产成人综合亚洲网址| 国产精品污污在线观看网站| 97精品国产高清久久久久蜜芽| 四虎影视8848永久精品| 久久福利网| 亚洲愉拍一区二区精品| 亚洲黄色成人| www.99精品视频在线播放| 青青草原国产免费av观看| 成人亚洲天堂| 91青青草视频| 国产黑丝一区| a级毛片毛片免费观看久潮| 最新亚洲人成无码网站欣赏网| 精品国产中文一级毛片在线看| 香蕉视频在线观看www| 亚洲日本中文综合在线| 国产91在线|中文| 中字无码精油按摩中出视频| 亚洲欧美在线综合一区二区三区| 久久久久久国产精品mv| 无码专区在线观看| 亚洲中文字幕无码爆乳| 伊人久久精品无码麻豆精品| 国产自视频| 久久77777| 亚洲高清中文字幕在线看不卡| 国产精品无码一二三视频| 午夜激情婷婷| 91精品啪在线观看国产91| 国产导航在线| 五月天天天色| 国产国产人免费视频成18| 国产精品99一区不卡| 国产成人三级| 亚洲经典在线中文字幕| 久久无码av三级| 女人av社区男人的天堂| 欧美精品不卡| www精品久久| 黄色一级视频欧美| 国产精品黄色片| 久久中文字幕不卡一二区| 亚洲天堂久久| 中日无码在线观看| 亚洲天堂免费| 国产美女视频黄a视频全免费网站| 19国产精品麻豆免费观看| 欧美一级高清片欧美国产欧美| 国产9191精品免费观看| 国产日韩欧美黄色片免费观看| 伊人成色综合网| 亚洲女同一区二区| 黄色三级毛片网站| 一级毛片高清| 国产亚洲第一页| 国产成人精品高清不卡在线| 狠狠色噜噜狠狠狠狠色综合久| 国产99视频精品免费视频7| 在线观看亚洲人成网站| 精品日韩亚洲欧美高清a|