蒲相忠 梁春燕 李鑫鑫 趙 磊 王 棟
(山東理工大學計算機科學與技術學院 山東 淄博 255049)
Self-attention是注意力機制中最權威的表達形式,可按照輸入數據的權重占比情況,分配與參量處理相關的信息節點,強調自我關注。假設在多語言傳輸環境中即語言信息理解存在復雜性時,例如“I am a semantic role”表示一個初級語義角色,而在self-attention理論的干預下,“am”“a”分別可對“semantic role”字節產生一定水平的權重影響,即在這種情況下,只有“I”可作為主權重分布節點,“am”“a”和“semantic role”都只能作為配合型權重處理節點。在確保不發生其他干擾影響的前提下,字符與字符、節點與節點之間都只能借助語義及語法的輔助模式,作為標注行為的連接橋梁[1]。
所謂語義角色是闡述謂語與變元之間物理關系的手段,可將多語言環境中的完整變元主體劃分為多個分散的小型結構。這種變元整合手段適用于施事、與事和受事等多個領域,通常情況下能夠清晰表述信息結構的連通狀態。隨著文本語言輸出總量的提升,語言數據的文字標簽序列的模糊性水平也會不斷增加。傳統標注手段通過加權處置概率向量的方式建立完整的半監督模型,再借助不同的語義角色節點實現固定位置信息的標注處理。但在實際應用過程中,這種方法的級聯重顯示指標水平即語義排序始終不能達到預期標準。對此,引入Self-attention理論,借助卷積神經網絡等結構組織建立一種新型的多語言語義角色標注聯合學習方法。
基于Self-Attention理論的多語言文本分類包含卷積神經網絡搭建、文本詞向量處理和分類特征提取三個步驟。
卷積神經網絡是Self-Attention理論的結構化表現形式,由原始多語言文本信息、語義角色矩陣和標準原則等幾部分組成。其中,原始多語言文本信息作為卷積神經網絡的上層主體結構基本保持對稱性的矩陣排列形式,在不唯一分類處理節點的促進下可轉換成獨立的語義角色矩陣,雖然依舊維持著多語言語義角色的分布形式,但不再局限于高度對稱的排列行為[2-3]。在實施分類處理的過程中,起始角色節點與標準后角色節點分別位于多語言文本信息的兩側,能夠按照Self-Attention分配原則挑選出所有的待標注語義角色,并參照原始矩陣的排列形式,定制全新的聯合結構體,再利用標準性處理原則調整節點組織所處的具體物理位置。完整的卷積神經網絡框架結構如圖1所示。

圖1 卷積神經網絡框架結構圖
在Self-Attention理論范疇內,多語言文本詞是指已被卷積神經網絡棄用的面板字符串,通常情況下位于語義角色的中心位置,具有較強的可編輯能力,在待標注的節點文件內這些結構向量只存在于聯合字符串外部。而隨著面板字符串中聯合型文件數量級水平的提升,可供選擇的角色節點數量不斷減少,即待標注的多語言角色信息不能得到及時占用。而多語言文本詞向量處理原則不僅完全順應Self-Attention原理的應用原則,也按照卷積神經網絡對于語義字符集的承載需求,限定角色矩陣在多語言環境中的最遠所及位置,進而控制文本詞結構的編碼結構大小[4-5]。借助Self-Attention的聯合系數λ,可將多語言文本詞的向量處理結果表示為:
(1)
式中:y1代表語義角色的初始面板字符串數量;y2代表語義角色的實際面板字符串數量;u代表語義角色的實際編輯系數;e0代表多語言文本詞的下限累積條件;e1代表多語言文本詞的上限累積條件;w代表語義角色的定義標量;δ、χ分別代表兩個不同的冪次向量參數。在多語言文本詞的向量處理結果的基礎上,進行Self-Attention分類特征提取。
Self-Attention分類特征是多語言文本詞的補充說明條件。從聯合型標注的角度來看,符合卷積神經網絡的傳輸需求,能夠平衡語義角色數據節點的存儲壓力,進而將所有待標注信息整合成多個獨立的結構體。為使語義角色時刻保持良好的匹配標注特性,Self-Attention分類特征提取必須遵循行為記錄、深入學習等多項原則。原始的多語言環境由時序語義、文本語義、數據語義和執行語義四部分組成,且每一類數據信息都對應不同的聯合學習特征主體。在多語言行為記錄原則的支持下,Self-Attention角色主體之間保持遞進式的時序關系,且隨著標注處理程度的加深,文本內容之間的含義也遠超理想狀態下的分類需求[6]。按照聯合學習法則的應用需求,最終提取出的Self-Attention分類特征保留標注信息節點能夠完全容納嵌入其中的語義文本,且在多語言執行環境中始終保持相對良好待標注行為能力。Self-Attention分類特征提取原理如圖2所示。

圖2 Self-Attention分類特征提取原理
語義角色是一種人工定義的稱呼形式,在多語言環境中,所有數據信息只能存在于相關的節點組織中,且相鄰結構體之間并不保留明顯的差異化形式。在這種情況下,很難直接挑選出正確的分類特征結構,而語義角色的出現,不僅解決了多語言環境的數據相似問題,也按照目的性需求限定了標注節點所處的具體位置條件。線性重排是一個含義范圍相對廣泛的物理概念,在不同語義環境中具有不同的角色定義方式。假設在Self-Attention理論中,分類特征的提取條件始終保持不變。在此情況下,多語言語義角色具有較強的聯合編輯能力,且待標注節點的物理位置也會隨著文本詞向量的改變而發生變化[7]。語義角色的線性重排公式可表示為:
(2)


(3)
式中:α代表文本詞的下限聯合條件;i′代表聯合學習系數的補充說明向量;|ω|代表標注詞的語義學習系數;μ代表聯合學習行為的綜合利用系數。
標簽字節預測是多語言語義角色標注聯合學習方法設計的末尾環節,能夠按照邊界字向量的存在形式分析語義數據的聯合學習能力,進而實現協調Self-Attention卷積神經節點的目的。整個標簽字節預測過程由原始語義角色、聯合標簽、Self-Attention標簽和學習標簽四個分析環節組成[9],如圖3所示。其中,原始語義角色分析包含基本類型、特殊類型、歷史類型和等級類型四個方向,且在不同的處理條件下,多語言環境的語義角色始終保持相互獨立的學習狀態。聯合標簽分析是數據屬性、多語言賬戶、語義頻道和操作次數等多項信息的綜合表達形式,隨著待標注角色數據總量的增加,聯合型標簽字節的數量級水平也出現大幅提升的變化趨勢。Self-Attention標簽分析能夠整合語義屬性、角色愛好、聯合關系和多語言環境等多項數據參量,并借助具備學習能力的標注平臺,處理堆積在多語言環境中的行為信息[10]。學習標簽分析具備較強的標注信息預測能力,能夠按照多語言角色屬性的發展趨勢,確定標注節點的流失速率,并以此為條件,判斷所有語義角色節點的聯合性需求水平。至此,完成所有關聯性條件的分析處理,實現基于Self-Attention多語言語義角色標注聯合學習方法的順利應用。

圖3 標簽字節預測原理
為突出說明基于Self-Attention多語言語義角色標注聯合學習方法的實效性,設計對比實驗。
在多語言大數據環境中,基于MATLAB仿真平臺進行目標對象確定、文本語言輸出標簽序列模糊度和級聯重顯示三個指標的實驗測試。
實驗數據在ImageNet數據集中選取輸出性能良好的信息流作為監測對象,以搭載語義角色標注聯合學習方法的計算機作為實驗組檢測元件,搭載傳統序列標注方法的計算機作為對照組檢測元件,在相同實驗時間內,分別記錄實驗組、對照組指標向量的具體變化情況。
通過人工篩選的方式,在多語言大數據環境中確定語義角色信息流的具體數值水平。在Self-Attention導流層的促進下,初步定義待標注角色節點,再借助多語言傳輸層,完成最終的聯合標注處理,如圖4所示。

圖4 學習對象確定過程
在聯合標注處理的過程中,多語言語義角色的輸入始終滿足Self-Attention卷積神經網絡的定義原理,在標注節點與輸出節點之間執行自由傳輸指令,并在聯合學習行為的要求下輸出完成標注的數據信息體。其聯合標注行為結果如圖5所示。

圖5 聯合標注行為結果
文本語言輸出標簽序列模糊度(TSA)即用某種序列對語義結構進行識別標記,其標記點占總語義的多少稱為標簽序列模糊度,可直接反映語義角色數據的標注水平,通常情況下,文本語言輸出標簽序列模糊度指標數值越小,語義角色數據的聯合標注程度越高,反之則越低。實驗組、對照組TSA指標的具體變化情況對比結果如表1和表2所示。

表1 實驗組文本語言輸出標簽序列模糊度

表2 對照組文本語言輸出標簽序列模糊度

續表2
由表1可知,實驗前期實驗組TSA指標始終保持穩定,而實驗中期卻開始持續下降,實驗后期再次轉換為穩定狀態,整個實驗過程中的最大值僅達到37.6%。由表2可知,前40 min的實驗時間內,對照組TSA指標始終保持不斷上升的變化趨勢,從第45 min開始逐漸趨于穩定,全局最大值達到60.1%,遠超實驗組極值水平。綜上可知,應用基于Self-Attention的多語言語義角色標注聯合學習方法可以達到降低文本語言輸出標簽序列模糊程度的目的。
級聯重顯示指標(DIT)也能反映語義角色數據的標注水平,其對候選詞進行重排序,通常情況下,級聯重顯示指標數值越大,語義角色數據的聯合標注程度越高,反之則越低。實驗組、對照組DIT指標的具體變化情況如圖6所示。

圖6 級聯重顯示指標對比圖
由圖6可知,隨著檢測時間的增加,實驗組、對照組DIT指標均呈現下降、上升交替出現的變化趨勢,在10~20 min之間同時達到最小值,在30~40 min之間同時達到最大值,但實驗組最大值水平超過90%,遠高于對照組的50%。綜上可知,應用基于Self-Attention的多語言語義角色標注聯合學習方法能夠不斷提升級聯重顯示指標等數值水平。
在Self-Attention原理的支持下,多語言語義角色標注聯合學習方法按照傳統序列標注方法的發展需求建立完善的卷積神經網絡,再根據分類特征提取結構完成標簽字節的預測處理。所設計多語言語義角色標注聯合學習方法的創新點是標注詞邊界字向量,在執行Self-Attention卷積神經網絡聯合學習指令的同時定義標注處理節點所處的具體位置條件。從實用性角度來看,若不考慮其他影響,TSA指標下降、DIT指標上升具備同時存在的可能,多語言環境下的級聯重排序模式出現趨于穩定的變化行為。