摘 要:為進一步挖掘更新日志信息,提出了基于注意力機制的孿生雙向LSTM網絡模型,對更新日志進行分類以實現主題標注,并輔助定位代碼缺陷位置。該模型提出了具有安全特色的分詞工具實現日志預處理,借助雙向LSTM網絡學習更新日志語義信息,通過孿生神經網絡解決更新日志自身存在的過擬合模式問題并高質量擴充數據集,提升泛化能力。針對多語句組成的更新日志進行序列化訓練,通過注意力機制對語句影響性進行區分。針對缺陷修復類的部分日志基于LLVM工具進行改進,生成映射表進行日志內容搜索,定位源碼中缺陷模塊的位置。大量實驗結果表明,所提模型分類效果具有強泛化能力,且較其他文本分類通用方法在準確率、F1值等指標提升近10%,具有理想的日志分類效果與主題學習效果。
關鍵詞:更新日志;孿生神經網絡;注意力機制;雙向LSTM
中圖分類號:TP399 文獻標志碼:A 文章編號:1001-3695(2023)02-005-0349-05
doi: 10.19734/j.issn.1001-3695.2022.07.0350
Changelog topic learning model with attention mechanism and siamese neural network
Zhang Xin, Huang Wenchao, Xiong Yan
(School of Computer Science amp; Technology, University of Science amp; Technology of China, Hefei 230000, China)
Abstract:In order to further mine the changelog information, this paper proposed a siamese Bi-LSTM network model based on the attention mechanism to classify the changelog to realize topic annotation and assist in locating the location of code defects. The model proposed a word segmentation tool with security features to realize changelog preprocessing, used Bi-LSTM network to learn changelog contextual semantic information, and solved the problem of overfitting mode existing in changelog itself through siamese neural network and expanded the data set with high quality to improve generalization ability. It carried out serialization training for the changelog composed of multiple sentences, and the influence of sentences was distinguished through the attention mechanism. For some changelogs of the defect repair class, this paper improved the LLVM tool, generated a mapping table to search the log content, and located the location of the defect module in the source code. A large number of experimental results show that the classification effect of the model in this paper has strong generalization ability, and is nearly 10% higher than the general methods in text classification methods in terms of accuracy, F1 value and other indicators, has ideal log classification effect and topic learning effect.
Key words:changelog; siamese neural network; attention mechanism; Bi-LSTM
0 引言
文本分類是自然語言處理中一個重要的研究方向,近年來在情感分析[1]、輿情判斷[2]、主題標注[3]、智能問答[4]等領域有著重要的應用。更新日志往往伴隨著軟件、協議的升級而發布,更新日志數據量大,且蘊涵著大量的重要信息,對程序的安全問題研究具有啟發性,借助分類模型對更新日志進行主題標注,借助標注信息從源碼端進行代碼缺陷的研究具有一定的意義。
目前,業界對普通文本的分類研究較多,但針對更新日志的文本分類研究十分罕見。觀察更新日志,其往往存在著數據量大、格式標準化程度較差、語義可理解性較弱等特點。經過研究總結可以發現,現有針對普通日志等文本分類方法直接應用于更新日志文本中往往存在如下問題:a)更新日志文本的內容、格式與長度均存在較大的差異性,現有部分研究方法對文本語句的信息理解、上下文語義關聯信息利用不充分;b)更新日志存在明顯的干擾詞匯,容易造成訓練的過擬合問題;c)對于少量數據樣本的分類模型效果有限,增強后的樣本較原樣本存在一定的差異。
基于現有方法存在的問題,本文針對更新日志文本的分類問題進行了研究,提出了一種新的分類模型——基于注意力機制的孿生雙向LSTM網絡(AMSBi-LSTM)。首先對更新日志文本進行規則化預處理,將更新日志文本數據以語句對的形式作為模型的輸入,孿生雙向LSTM網絡模型充分學習相同類數據的相同點及不同類數據的差異性,并充分關注語句文本之間的關系,利用注意力機制充分考慮不同語句對文本最終分類結果的影響性,提升模型分類效果與魯棒性。本文的主要貢獻如下:a)提出了新的AMSBi-LSTM模型,利用孿生網絡在保證數據集質量和真實性的情況下擴增樣本數據量,加強模型對文本的理解性,提升模型的魯棒性,日志語句中存在大量的“Fix”等暗示詞匯,含有Fix的語句大部分為缺陷修復類日志,但并非全部都為缺陷修復類日志,本文模型解決了日志本身存在的過擬合問題;b)使用注意力機制進行局部特征信息的權衡,對文本的不同語句影響性進行區分,突出不同詞匯的分類效果的重要性;c)本文是首次面向更新日志文本設計出分類模型,并通過大量的實驗驗證了模型的魯棒性與有效性,相對于其他通用的文本分類模型在性能上有明顯提升,并利用文本分類信息進行應用性實驗分析,可以實現代碼定位,輔助安全研究。
1 相關工作
基于更新日志文本的分類目前較為罕見,可以將更新日志的文本內容類比普通的日志文本進行分類。目前,基于日志類文本分類常見的方法可以分為有監督學習方法、無監督學習方法及神經網絡類方法[5]。
有監督學習方法中,通常會將一條日志文本表示成為一個向量,將向量作為有監督機器學習模型的輸入進行模型訓練,通過其本身的標簽和相似性度量函數完成對模型的優化。Liang等人[6]將特征表示后的向量作為模型輸入,訓練了一個SVM分類器[7]使用事件日志檢測故障;Chen等人[8]利用決策樹模型來檢測應用程序操作中的異常;Farshchi 等人[9]提出了一種基于回歸的云系統測井數據異常檢測方法。有監督學習的局限性在于對文章語義信息的理解與上下文關聯信息的利用不充分,模型訓練效果具有較為明顯的可提升空間。
除了有監督學習方法外,許多無監督學習方法也被提出。例如Lou等人[10]提出了不變挖掘(IM),從日志事件計數向量中挖掘日志事件之間的不變量線性關系,違反不變量關系的日志序列被認為是異常樣本;Xu等人[11]利用主成分分析方法進行日志異常檢測分類,通過將日志信息解析成所需要的預處理文本后,構造日志事件計數矩陣的正規空間和異常空間,借用主成分分析方法去檢測異常的存在。此類算法借助矩陣相關計算,每次出現新的日志事件后,都需要對原來計算好的矩陣進行更新,并重新計算參數,在大規模數據量中,對矩陣計算的優化和時間效率存在一定的挑戰。
隨著深度學習方法的興起,基于日志異常檢測等領域的神經網絡方法逐漸成為一種熱門趨勢。Du等人[12]使用LSTM網絡來預測下一個日志事件,然后將其與當前的真實情況進行比較,以檢測異常。Ren等人[13]將神經網絡模型從結構上分為DNN部分和記憶網絡部分,記憶網絡部分主要存儲兩個向量,兩者分別用于存儲用戶“喜歡的內容”和“不喜歡的內容”。首先原始用戶特征同樣通過表示層得到稠密的表示向量,將不同特征的表示向量全部拼接形成一個大的表示向量,然后針對每一個用戶,從記憶網絡中獲取用戶的兩個儲藏向量,將三者拼接到一起得到向量經過幾層全連接網絡得到最終的預測結果。但此方法優化困難,同時需要對序列建模,較為復雜。文獻[14]通過訓練堆疊式LSTM對正常和異常事件的操作日志樣本進行建模,但其不適用于處理不斷變化的日志數據,特別是在出現新的日志事件的場景中。
2 本文模型
2.1 模型總體框架
本文模型主要由文本預處理與特征表示、融合注意力機制[15]的雙向LSTM網絡模型訓練、孿生神經網絡分類與缺陷定位三個關鍵部分組成,架構如圖1 所示。本節將詳細介紹其工作原理與實現功能。模型的輸入文本1和2為一對日志語句,通過學習同類別日志的共性和不同類別日志的差異性增強模型理解學習能力。
模型以日志文本語句對的形式作為輸入,語句對是一對帶有標簽的日志語句文本,標簽表示兩個語句文本是否屬于同一類別(缺陷修復日志語句和非缺陷修復日志語句),將語句文本進行基本預處理后,處理后的兩個日志語句作為輸入分別進入參數共享的雙向LSTM網絡(即孿生神經網絡結構)進行特征提取,并基于注意力機制層面進行權重分配,通過孿生神經網絡的相似性函數距離度量進行網絡調整,訓練出最終模型。
2.2 文本預處理與特征表示模塊
更新日志的語句文本內容豐富、類型多樣,由程序員在進行系統版本升級的時候發布,不同的程序員具有不同的書寫風格,但往往在文本內容上對文本的分類存在一定的干擾信息,主要存在的干擾信息有以下兩種情況:
a)文本語句中存在語氣助詞及部分符號。本文擬增加語義理解模塊,強化對文本內容的理解,增強模型對不同語句文本的區分度;語氣助詞及無關標識符如“the”“#”等,本文擬采用NLTK庫[16]實現無關標識符和語氣助詞的過濾。
b)語義詞匯拆分。部分文本內容在表述的時候,某些參數以組合詞匯的形式表達,如“Typedeclaration”“account-password”“Typeint”“pathname”等,這些詞匯拆開后去理解具有很強的可理解性,若組合在一起當做一個詞匯理解的時候,機器學習模型會存在無法準確理解的情況。本文通過自主開發工具CamelSplit去進行詞匯拆分,提升文本內容可理解性。
CamelSplit的組成模塊可以分為語料庫搭建、文本語句識別與拆分兩個部分。CamelSplit在常見的英文新聞語料庫基礎之上,基于對海量更新日志的觀察,并加入網絡安全領域的專業詞匯,構建符合更新日志自身且具有安全特征的語料庫。通過大量觀察,更新日志中組合詞匯往往會具有某些關鍵詞Type及符號“-”等標志,CamelSplit會遍歷復合詞匯中,是否存在語料庫中的單詞,若存在則進行拆分。工具自身會存儲一些具有特定表示含義的組合詞匯,遍歷的時候保留不拆分,最后將拆分后的語句輸出經過人工判別是否存在明顯的詞性及拆分錯誤。
在進行語句文本處理后,需要將文本中每個得到的word進行向量表示,根據每個語句中單個word得到的表示向量結果進行加權融合,得到最終的語句表示向量。關于向量表示工具本文擬選用FastText[17],此工具由Facebook于2016年發布,是一個開源的詞向量計算工具,也可用于文本分類,運行速度快,效果優良,表示向量后的向量維度是可以固定的,并考慮了語句本身的語義信息,將更新日志語句中的word表示成為詞向量,再將每個詞向量進行權重加權融合成為一個最終的語句向量,代表本句更新日志文本。
對于詞向量融合語句向量的權重確定,本文擬采用TF-IDF進行權重計算,權重(weight)的值為TF值與IDF值的乘積,其中TF為詞頻指數,表示如果一個word在一條語句或整個訓練集中多次出現,則從一定程度上表明該詞匯對整體模型結果的訓練影響相對較高。IDF為逆詞頻指數,從另一個角度去區分辨識一個詞的重要性,如果一個word出現的次數較多,但是在每一個語句中均有出現,則意味該word可能是一種普遍性詞匯,對預測的影響將相對減弱,最后將二者的乘積值作為權重的最終值。在更新日志中,Fix等標志性詞匯出現頻率較高,且大部分含有Fix的詞匯均為缺陷修復類,但是存在少數類別不屬于缺陷修復類,很容易出現過擬合問題,通過TF-IDF從一定程度上弱化部分標志性詞匯的影響,關于TF與IDF的計算公式如下:
其中:#word number表示該word在語句中出現的次數;#total word number表示該更新日志文本中詞匯的總個數;#L表示訓練集中總詞匯的個數;#Lword表示訓練集中該word出現的總次數。將TF(word)與IDF(word)的值相乘即可得到該詞匯的權重參數。
文本預處理與特征表示模塊結構如圖2所示。
2.3 融合注意力機制的雙向LSTM網絡模型訓練
如圖3所示,變更日志文本的格式存在多樣化,部分簡單變更日志文本的格式為單句文本,但是存在一部分較為復雜的變更日志文本的內容為語句段的形式呈現,單句文本和單段文本的詞匯長度差異過大,如果采用統一的特征向量表示方法不加處理,會造成語句信息學習不足的問題。本文擬采用融合注意力機制的雙向LSTM網絡模型訓練,模型以語句序列作為輸入,對于單段語句中存在多個單句文本,本文模型將一段日志序列中每個單句進行特征向量表示后,統一合并在一起作為一個語句序列V=[V1,V2,V3,…,Vn]進行學習,而對于一條變更日志語句僅包含單句文本的日志,則將此句特征向量表示后作為輸入,如圖3所示。
LSTM 模型是循環神經網絡(RNN)的一種變體,它能夠捕獲序列的上下文來自兩個方向的信息,并且擁有門控機制可以保存短期內的記憶,能夠更充分地對信息進行學習。采用注意力機制是為了解決訓練過程中的側重性問題和多層次邏輯理解問題。LSTM 由輸入層、隱藏層和輸出層組成。Bi-LSTM 將標準 LSTM 的隱藏層分為正向傳遞和反向傳遞兩個方向,以便在兩個方向上捕獲輸入日志序列的上下文信息。融合注意力機制的雙向LSTM模型結構如圖4所示。
其中:hfi和hbi分別代表的是前向傳遞或后向傳遞中序列第i個語句的隱藏狀態向量;ht表示兩個向量hfi和hbi隱藏狀態的連接,ht=concat(hfi,hbi)。
在更新日志的語句段中,每一個語句對分類結果的影響性是有差異的,利用注意力機制對不同的語句針對分類結果的影響性進行區分,注意力機制本質上是比較當前語句與最終目標的相似性,越相似的目標其注意力參數值越高。最終對多個語句計算出來的注意力機制參數ai進行求和,構造softmax層輸出分類結果。其中N代表語句個數,i代表的是第幾個語句,W為softmax層的權重參數。
2.4 孿生神經網絡訓練與缺陷定位
經過2.3節網絡模型訓練后,孿生神經網絡得到了兩個文本對的向量表示,孿生神經網絡的目的在于學習同類別樣本之間的相似性,學習不同類別樣本之間的差異性。且通過本文配對的形式進行樣本集訓練,在保證原數據集質量的情況下,擴充了數據集的訓練量,通過第3章實驗表明,孿生神經網絡模型的訓練較好的改善了過擬合問題。
孿生神經網絡基于樣本類別情況,對兩個網絡學習到的輸出向量houtput進行距離度量,孿生神經網絡的兩個網絡模型的參數是共享的,衡量距離distance采用曼哈頓距離,若兩個樣本為同種類別,則其相似性距離度量distance應該較近,值應該較小;若屬于不同類別,則其相似性距離度量distance應該較遠,值應該較大。根據樣本標簽情況和度量距離迭代訓練網絡模型。
更新日志中數據量龐大,科研人員往往想快速準確地尋找到有缺陷的有用信息。針對本文AMSBi-LSTM模型預測的分類結果,經過觀察發現,相當一部分的變更日志中會標識出缺陷修復的函數,本文擬對此類更新日志類文本語句進一步觀察,并結合源代碼進行缺陷定位基于靜態分析工具LLVM基礎之上進行源碼部分修改,對C/C++、Go語言等源代碼生成函數映射表,LLVM工具生成函數調用圖并獲取函數文件位置,生成函數名稱—函數位置對應表,對日志內容進行搜索查看是否存在表格中的主鍵函數名稱,若存在則輸出定位位置,否則輸出暫未發現,具體過程如圖5所示。
3 實驗及結果分析
3.1 數據集及實驗環境介紹
本文代碼使用 Python語言編程實現,版本3.6,利用Google公司的 TensorFlow深度學習框架實現,版本為1.15.4。實驗環境配置:操作系統為 Ubuntu 20.04.4;CPU 為Intel Xeon Gold 5215 CPU @ 2.50 GHz;顯卡為GTX 1080Ti。
本文實驗的CHlog數據來自多個軟件系統、協議升級更新時發布自主搜集的更新日志,更新日志涵蓋的范圍包括網絡應用、程序語言(如Python等)、協議、軟件等多個方面,更新日志根據功能可劃分為功能維護、bug修復、界面美化、功能增強等多個類型,本文擬對其進行二分類,則將搜集的更新日志分成缺陷修復類與非缺陷修復類,具體情況如表1所示。
3.2 對比算法介紹
為了全面評估本文AMSBi-LSTM模型,選擇了在通用文本分類及日志信息分類中幾個具有代表性的基線方法與本文模型進行性能比較,涵蓋基本機器學習模型、神經網絡類模型等。
a)LR方法。邏輯回歸方法,以數據服從某個分布為前提,使用極大似然方法估計參數。
b)隨機森林方法。隨機森林是一種常用的機器學習算法,結合了多個決策樹的輸出以達到理想的結果。
c)TextCNN。TextCNN 是用于文本的卷積神經網絡,將文本信息轉換為CNN模型的輸入信息,是一種有效的深度學習算法,用于情感分析、問題分類等任務。
d)LSTM方法。LSTM 模型使用最后一個隱藏狀態作為整個文本的表示形式。
e)Bi-LSTM方法。雙向 LSTM模型,通過兩個方向將文本作為輸入訓練,充分捕捉其上下文間的關聯。
f)TextGCN圖神經網絡方法。基于詞語共現以及文本單詞之間的關系構建語料庫中文本圖,然后將GCN學習文本的表示用于文本分類。
g)FastText方法。一種基于詞嵌入的文本分類模型,該方法將單詞嵌入的平均值作為文檔的嵌入,然后將文檔嵌入送到線性分類器中進行分類。
h)RLBAD[17]。一種針對不穩定普通日志進行異常檢測的方法,于2019年在ACM Joint European Software Engineering Conference and Symposium on the Foundations of Software Engineering會議上發表。
3.3 實驗參數設置
本文實驗選用300維度的word2vec向量初始化詞嵌入,所有模型的權重參數均采用均勻分布進行初始化。隱藏層的維度設50,選用 Adam 作為優化器,學習率為0.001,批處理大小為128。實驗隨機初始化運行100次,并取100次運行結果的均值作為最終的實驗結果。實驗選擇準確率、召回率和F1值作為評估指標,從多維度評估實驗效果的有效性與魯棒性。
3.4 實驗結果分析
實驗結果如表2所示,通過表2可以觀察到本文AMSBi-LSTM表現優于其他可比模型,表明了本文方法的有效性。說明本文通過引入雙向LSTM網絡模型從兩個方向捕獲語義信息較為有效,同時利用孿生神經網絡以語句對的形式進行模型訓練,高質量擴充模型訓練數據量,提升模型訓練效果,解決模型的過擬合問題。
3.5 實驗結果分析
1)衡量孿生神經網絡的有效性
數據集的數量往往相對有限,能夠在相對有限的數據集中學習到更佳的模式,達到更好的實驗效果往往是實驗所追求的。通過統計觀察,更新日志本身固有的模式對實驗模型的學習存在一定的干擾,如“Fix xxx”類型的日志語句特別多,且多數為缺陷修復類,但是少部分此類語句非缺陷修復類,很容易造成模型的過擬合問題。好的實驗模型應該能夠精確地區別兩種類型語句,孿生神經網絡采用語句配對的方式進行模型訓練,在不影響原語句表達模式的情況下,巧妙擴充了數據集訓練的個數,提升了模型的魯棒性,減少了模型的過擬合程度,本文對孿生網絡的有效性進行了實驗,實驗結果如表3所示。
通過上述實驗數據可以看出,在訓練集中,孿生神經網絡提升了模型準確率的8.01%,在測試集中提升了模型準確率較多,高達16.31%。圖6、7以一種可視化效果表示出孿生神經網絡在分類精度和解決過擬合問題上的有效性。
通過圖6、7對比可以看出,圖6中隨著迭代次數的不斷增多,訓練集的效果逐漸提升,但測試集的效果并無明顯提升,且有下降趨勢,存在明顯的過擬合問題。圖7通過采用孿生神經網絡方法,精準擴充數據集的實驗量,完美解決了存在的過擬合問題,同時明顯提升了模型的分類效果。
2)衡量注意力機制的有效性
注意力機制源于對人類視覺的研究。在認知科學中,由于信息處理的瓶頸,人類會選擇性地關注所有信息的一部分,同時忽略其他可見的信息。本文加入注意力機制是為了加強模型更新日志語句段中,不同語句對最終分類結果影響的區分,提升分類效果,加強對語句語義及上下文關聯性的理解。如表4所示,通過實驗對比,注意力機制在分類預測上對結果有一定的改善作用。通過上述實驗數據,可以看出,在訓練集中,注意力機制提升了模型準確率的1.49%,在測試集中提升了模型準確率相對較多,高達3.44%。
3)衡量雙向LSTM相較于單向LSTM的有效性
雙向LSTM網絡主要從兩個方向來捕獲變更日志語句中的語義信息,并從兩個方向初步獲得全文的語義信息,提升模型對變更日志語句本身的可理解性,提升分類效果。如表5所示,通過實驗對比,雙向LSTM在分類預測上對結果有一定改善作用。通過上述實驗數據,可以看出,在訓練集中,雙向LSTM網絡提升了模型準確率的4.11%,在測試集中提升了模型準確率相對較多,高達6.59%。
3.6 應用性分析
為了證明本文模型的應用價值,本節從具體的應用性角度進行實驗分析,體現出其研究意義,并非專注于該應用領域的研究,其在主題標注和輔助缺陷代碼定位上具有一定的作用。
1)主題標注
現實生活中存在大量的無標簽數據,人工標注訓練數據十分耗時,在安全研究領域,源代碼缺陷預測借助機器學習手段進行缺陷判定,開源社區維護借助發布的日志信息指導進行漏洞修復。源代碼的預測往往伴隨著更新日志的發布,安全研究者想訓練模型用于源碼缺陷預測,往往需要標簽數據,人工獲取標簽數據往往耗時費力,本文借助更新日志訓練AMSBi-LSTM模型,對更新日志進行分類獲得標簽,便于后續缺陷預測等安全研究,也可以幫助指導開源社區漏洞的修復,提取缺陷日志信息,減少海量日志尋找時間,提高工作效率。本文對現有的更新日志主題標注進行實驗的結果如表6所示。
2)輔助缺陷代碼定位
更新日志中,相當一部分修復類更新日志中會存在修復的函數內容,基于AMSBi-LSTM模型對缺陷修復類的日志進一步分析,定位到缺陷函數的位置。
首先,對于缺陷修復類日志的源代碼調用LLVM靜態分析工具生成程序模塊調用關系,如圖8左半部分所示;本文在靜態分析工具LLVM基礎上進行改進,對程序調用關系圖上的函數節點進行遍歷并關聯函數位置生成函數映射表,函數映射表記錄了函數名稱與其對應的位置,如圖8右上半部分所示。對于給出的更新日志文本,通過分詞的方式得到日志文本中的函數名稱,利用生成的函數映射表對函數名稱進行搜索,若在函數映射表中搜到,則輸出對應的函數位置,得到缺陷代碼定位位置;若未搜索到,則輸出暫未定位到。圖8以OpenSSL更新日志文本為例,進行了輔助缺陷代碼定位實驗的結果代表性展示。
4 結束語
傳統的文本分類針對普通文本的分類具有廣泛的研究,但對于更新日志的分類還暫時沒有深入研究,更新日志本文存在較多的功能性信息與安全性信息,對未來的安全研究、主題標注等方面均具有一定的應用價值。本文針對更新日志自身特性,提出一種新的AMSBi-LSTM網絡模型,自研具有安全特性的分詞工具CamelSplit精細化預處理,利用孿生神經網絡模型高質量擴增訓練數據集,將TF-IDF引入文本表示中,結合孿生神經網絡解決變更日志固有模式造成的過擬合問題,借助雙向網絡結構和注意力機制充分學習更新日志序列的語義及上下文關系,增強分類效果,并進行了充分的實驗驗證。同時能夠輔助實現缺陷源碼定位,幫助修復、研究存在的缺陷。未來,本文將進一步解決目前安全界存在的難點,實現文本內容與源代碼之間的精確匹配及缺陷類型預測,能夠根據日志內容定位缺陷修復所在的具體語句,完成從函數模塊到函數語句的細化,進一步挖掘更新日志自身存在的價值。
參考文獻:
[1]Ma Jingang,Cai Xiaohong,Wei Dejian,et al. Aspect-based attention LSTM for aspect-level sentiment analysis[C]// Proc of the 3rd World Symposium on Artificial Intelligence. Piscataway,NJ: IEEE Press,2021: 46-50.
[2]Chen Shaowei,Wang Yu,Liu Jie,et al. Bidirectional machine reading comprehension for aspect sentiment triplet extraction[J]. Proc of AAAI Conference on Artificial Intelligence,2021,35(14):12666-12674.
[3]Wang Sida,Manning C. Baselines and bigrams: simple,good sentiment and topic classification[C]// Proc of the 50th Annual Meeting of the Association for Computational Linguistics. 2012: 90-94.
[4]Liu Longxiang,Zhang Zhuosheng,Zhao Hai,et al. Filling the gap of utterance-aware and speaker-aware representation for multi-turn dialogue[C]// Proc of AAAI Conference on Artificial Intelligence,202111: 13406-13414.
[5]Lokeshwar V,Bharadwaj V,Jain S. Explainable neural network for pricing and universal static hedging of contingent claims[J]. Applied Mathematics and Computation,2022,417: 126775.
[6]Liang Yinglung,Zhang Yanyong,Xiong Hui,et al. Failure prediction in IBM BlueGene/L event logs[C]// Proc of the 7th IEEE International Conference on Data Mining. 2007: 583-588.
[7]Zhang Fei,Zhen Peining,Jing Dishan,et al. SVM based intrusion detection method with nonlinear scaling and feature selection[J]. IEICE Trans on Information and Systems,2022,105(5): 1024-1038.
[8]Chen M,Zheng A X,Lloyd J,et al. Failure diagnosis using decision trees [C]// Proc of International Conference on Autonomic Computing. 2004: 36-43.
[9]Farshchi M,Schneider J G,Weber I,et al. Experience report: anomaly detection of cloud application operations using log and cloud metric correlation analysis[C]// Proc of the 26th International Symposium on Software Reliability Engineering. Piscataway,NJ: IEEE Press,2015: 24-34.
[10]Lou Jianguang,Fu Qiang,Yang Shengqi,et al. Mining invariants from console logs for system problem detection[C]// Proc of USENIX Annual Technical Conference. 2010: 24.
[11]Xu Wei,Huang Ling,Fox A,et al. Detecting large-scale system problems by mining console logs[C]// Proc of the 22nd Symposium on Operating Systems Principles. 2009: 117-132.
[12]Du Min,Li Feifei,Zheng Guineng,et al. DeepLog: anomaly detection and diagnosis from system logs through deep learning[C]// Proc of ACM SIGSAC Conference on Computer and Communications Security. 2017: 1285-1298.
[13]Ren Shuo,Zhou Long,Liu Shujie,et al. SemFace: pre-training encoder and decoder with a semantic interface for neural machine translation[C]// Proc of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. 2021: 4518-4527.
[14]Vinayakumar R,Soman K P,Poornachandran P. Long short-term memory based operation log anomaly detection[C]// Proc of International Conference on Advances in Computing,Communications and Informatics. Piscataway,NJ: IEEE Press,2017: 236-242.
[15]吳天昊,古麗拉·阿東別克. 基于神經元塊級別注意力機制的LSTM關系抽取[J] 計算機應用研究,2020,37(S2): 76-79. (Wu Tianhao,Gulila Adombek. LSTM relation extraction based on neuronal block level attention mechanism[J]. Application Research of Computers,2020,37(S2): 76-79.)
[16]Schmitt X,Kubler S,Robert J,et al. A replicable comparison study of NER software: StanfordNLP,NLTK,OpenNLP,SpaCy,gate[C]// Proc of the 6th International Conference on Social Networks Analysis,Management and Security. 2019: 338-343.
[17]Athiwaratkun B,Wilson A,Anandkumar A. Probabilistic FastText for multi-sense word embeddings[C]// Proc of the 56th Annual Meeting of the Association for Computational Linguistics. 2018: 1-11.
[18]Chowdhury A A,Van Nelson C,Fuelling C P,et al. Predicting success of a beginning computer course using logistic regression(abstract only)[C]// Proc of the 15th Annual Conference on Computer Science. 1987: 449.
[19]Gislason P O,Benediktsson J A,Sveinsson J R. Random forests for land cover classification[J]. Pattern Recognition Letters,2006,27(4): 294-300.
[20]Sun Xiao,Ma Xiaohu,Ni Zhiwen,et al. A new LSTM network model combining TextCNN[M]// Cheng L,Leung A,Ozawa S. Neural Information Processing. Cham: Springer,2018: 416-424.
[21]Sakti S,Ilham F,Neubig G,et al. Incremental sentence compression using LSTM recurrent networks[C]// Proc of IEEE Workshop on Automatic Speech Recognition and Understanding. Piscataway,NJ: IEEE Press,2015: 252-258.
[22]Li Binyang,Zhou Kaiming,Gao Wei,et al. Attention-based LSTM-CNNs for uncertainty identification on Chinese social media texts[C]// Proc of International Conference on Security,Pattern Analysis,and Cybernetics. Piscataway,NJ: IEEE Press,2017: 609-614.
[23]Yang Ying,Wu Bin,Li Lianwei,et al. A joint model for aspect-category sentiment analysis with TextGCN and Bi-GRU[C]// Proc of the 5th International Conference on Data Science in Cyberspace. Pisca-taway,NJ: IEEE Press,2020: 156-163.
[24]Zhang Xu,Xu Yong,Lin Qingwei,et al. Robust log-based anomaly detection on unstable log data[C]// Proc of the 27th ACM Joint Meeting on European Software Engineering Conference and Sympo-sium on the Foundations of Software Engineering. 2019: 807-817.
[25]郭玲,于海雁,周志權,等. 基于SimAM注意力機制的近岸船舶檢測方法[J] 哈爾濱工業大學學報,2023,55(5): 1-8. (Guo Ling,Yu Haiyan,Zhou Zhiquan,et al. Inshore ship detection method based on SimAM attention mechanism[J]. Journal of Harbin Institute of Technology,2023,55(5): 1-8.)
[26]Karimi A,Rossi L,Prati A. AEDA: an easier data augmentation technique for text classification[M]// Findings of the Association for Computational Linguistics: EMNLP 2021. 2021: 2748-2754.
收稿日期:2022-07-16;修回日期:2022-09-11 基金項目:國家重點研發計劃資助項目(2018YFB2100300,2018YFB0803400);國家自然科學基金資助項目(61972369,62102385);安徽省自然科學基金資助項目(2108085QF262)
作者簡介:張鑫(1998-),男,遼寧人,碩士研究生,主要研究方向為智能安全;黃文超(1982-),男,湖北人,副教授,碩導,主要研究方向為網絡安全、形式化驗證與人工智能(zhangdlmuqsing@163.com);熊焰(1960-),男,安徽人,教授,博導,主要研究方向為網絡安全.