基于Self-Attention的多語言語義角色標注聯(lián)合學習方法

2021-12-14 01:28:34蒲相忠梁春燕李鑫鑫

計算機應用與軟件 2021年12期

蒲相忠梁春燕李鑫鑫趙磊王棟

(山東理工大學計算機科學與技術學院山東淄博 255049)

0 引言

Self-attention是注意力機制中最權威的表達形式，可按照輸入數(shù)據(jù)的權重占比情況，分配與參量處理相關的信息節(jié)點，強調(diào)自我關注。假設在多語言傳輸環(huán)境中即語言信息理解存在復雜性時，例如“I am a semantic role”表示一個初級語義角色，而在self-attention理論的干預下，“am”“a”分別可對“semantic role”字節(jié)產(chǎn)生一定水平的權重影響，即在這種情況下，只有“I”可作為主權重分布節(jié)點，“am”“a”和“semantic role”都只能作為配合型權重處理節(jié)點。在確保不發(fā)生其他干擾影響的前提下，字符與字符、節(jié)點與節(jié)點之間都只能借助語義及語法的輔助模式，作為標注行為的連接橋梁[1]。

所謂語義角色是闡述謂語與變元之間物理關系的手段，可將多語言環(huán)境中的完整變元主體劃分為多個分散的小型結構。這種變元整合手段適用于施事、與事和受事等多個領域，通常情況下能夠清晰表述信息結構的連通狀態(tài)。隨著文本語言輸出總量的提升，語言數(shù)據(jù)的文字標簽序列的模糊性水平也會不斷增加。傳統(tǒng)標注手段通過加權處置概率向量的方式建立完整的半監(jiān)督模型，再借助不同的語義角色節(jié)點實現(xiàn)固定位置信息的標注處理。但在實際應用過程中，這種方法的級聯(lián)重顯示指標水平即語義排序始終不能達到預期標準。對此，引入Self-attention理論，借助卷積神經(jīng)網(wǎng)絡等結構組織建立一種新型的多語言語義角色標注聯(lián)合學習方法。

1 基于Self-Attention理論的多語言文本分類

基于Self-Attention理論的多語言文本分類包含卷積神經(jīng)網(wǎng)絡搭建、文本詞向量處理和分類特征提取三個步驟。

1.1 卷積神經(jīng)網(wǎng)絡基礎框架

卷積神經(jīng)網(wǎng)絡是Self-Attention理論的結構化表現(xiàn)形式，由原始多語言文本信息、語義角色矩陣和標準原則等幾部分組成。其中，原始多語言文本信息作為卷積神經(jīng)網(wǎng)絡的上層主體結構基本保持對稱性的矩陣排列形式，在不唯一分類處理節(jié)點的促進下可轉換成獨立的語義角色矩陣，雖然依舊維持著多語言語義角色的分布形式，但不再局限于高度對稱的排列行為[2-3]。在實施分類處理的過程中，起始角色節(jié)點與標準后角色節(jié)點分別位于多語言文本信息的兩側，能夠按照Self-Attention分配原則挑選出所有的待標注語義角色，并參照原始矩陣的排列形式，定制全新的聯(lián)合結構體，再利用標準性處理原則調(diào)整節(jié)點組織所處的具體物理位置。完整的卷積神經(jīng)網(wǎng)絡框架結構如圖1所示。

圖1 卷積神經(jīng)網(wǎng)絡框架結構圖

1.2 多語言文本詞的向量處理

在Self-Attention理論范疇內(nèi)，多語言文本詞是指已被卷積神經(jīng)網(wǎng)絡棄用的面板字符串，通常情況下位于語義角色的中心位置，具有較強的可編輯能力，在待標注的節(jié)點文件內(nèi)這些結構向量只存在于聯(lián)合字符串外部。而隨著面板字符串中聯(lián)合型文件數(shù)量級水平的提升，可供選擇的角色節(jié)點數(shù)量不斷減少，即待標注的多語言角色信息不能得到及時占用。而多語言文本詞向量處理原則不僅完全順應Self-Attention原理的應用原則，也按照卷積神經(jīng)網(wǎng)絡對于語義字符集的承載需求，限定角色矩陣在多語言環(huán)境中的最遠所及位置，進而控制文本詞結構的編碼結構大小[4-5]。借助Self-Attention的聯(lián)合系數(shù)λ，可將多語言文本詞的向量處理結果表示為：

(1)

式中：y1代表語義角色的初始面板字符串數(shù)量；y2代表語義角色的實際面板字符串數(shù)量；u代表語義角色的實際編輯系數(shù)；e0代表多語言文本詞的下限累積條件；e1代表多語言文本詞的上限累積條件；w代表語義角色的定義標量；δ、χ分別代表兩個不同的冪次向量參數(shù)。在多語言文本詞的向量處理結果的基礎上，進行Self-Attention分類特征提取。

1.3 Self-Attention分類特征提取

Self-Attention分類特征是多語言文本詞的補充說明條件。從聯(lián)合型標注的角度來看，符合卷積神經(jīng)網(wǎng)絡的傳輸需求，能夠平衡語義角色數(shù)據(jù)節(jié)點的存儲壓力，進而將所有待標注信息整合成多個獨立的結構體。為使語義角色時刻保持良好的匹配標注特性，Self-Attention分類特征提取必須遵循行為記錄、深入學習等多項原則。原始的多語言環(huán)境由時序語義、文本語義、數(shù)據(jù)語義和執(zhí)行語義四部分組成，且每一類數(shù)據(jù)信息都對應不同的聯(lián)合學習特征主體。在多語言行為記錄原則的支持下，Self-Attention角色主體之間保持遞進式的時序關系，且隨著標注處理程度的加深，文本內(nèi)容之間的含義也遠超理想狀態(tài)下的分類需求[6]。按照聯(lián)合學習法則的應用需求，最終提取出的Self-Attention分類特征保留標注信息節(jié)點能夠完全容納嵌入其中的語義文本，且在多語言執(zhí)行環(huán)境中始終保持相對良好待標注行為能力。Self-Attention分類特征提取原理如圖2所示。

圖2 Self-Attention分類特征提取原理

2 多語言語義角色標注的聯(lián)合學習方法

2.1 語義角色的線性重排

語義角色是一種人工定義的稱呼形式，在多語言環(huán)境中，所有數(shù)據(jù)信息只能存在于相關的節(jié)點組織中，且相鄰結構體之間并不保留明顯的差異化形式。在這種情況下，很難直接挑選出正確的分類特征結構，而語義角色的出現(xiàn)，不僅解決了多語言環(huán)境的數(shù)據(jù)相似問題，也按照目的性需求限定了標注節(jié)點所處的具體位置條件。線性重排是一個含義范圍相對廣泛的物理概念，在不同語義環(huán)境中具有不同的角色定義方式。假設在Self-Attention理論中，分類特征的提取條件始終保持不變。在此情況下，多語言語義角色具有較強的聯(lián)合編輯能力，且待標注節(jié)點的物理位置也會隨著文本詞向量的改變而發(fā)生變化[7]。語義角色的線性重排公式可表示為：

(2)

2.2 標注詞邊界的字向量表示

(3)

式中：α代表文本詞的下限聯(lián)合條件；i′代表聯(lián)合學習系數(shù)的補充說明向量；|ω|代表標注詞的語義學習系數(shù)；μ代表聯(lián)合學習行為的綜合利用系數(shù)。

2.3 標簽字節(jié)預測

標簽字節(jié)預測是多語言語義角色標注聯(lián)合學習方法設計的末尾環(huán)節(jié)，能夠按照邊界字向量的存在形式分析語義數(shù)據(jù)的聯(lián)合學習能力，進而實現(xiàn)協(xié)調(diào)Self-Attention卷積神經(jīng)節(jié)點的目的。整個標簽字節(jié)預測過程由原始語義角色、聯(lián)合標簽、Self-Attention標簽和學習標簽四個分析環(huán)節(jié)組成[9]，如圖3所示。其中，原始語義角色分析包含基本類型、特殊類型、歷史類型和等級類型四個方向，且在不同的處理條件下，多語言環(huán)境的語義角色始終保持相互獨立的學習狀態(tài)。聯(lián)合標簽分析是數(shù)據(jù)屬性、多語言賬戶、語義頻道和操作次數(shù)等多項信息的綜合表達形式，隨著待標注角色數(shù)據(jù)總量的增加，聯(lián)合型標簽字節(jié)的數(shù)量級水平也出現(xiàn)大幅提升的變化趨勢。Self-Attention標簽分析能夠整合語義屬性、角色愛好、聯(lián)合關系和多語言環(huán)境等多項數(shù)據(jù)參量，并借助具備學習能力的標注平臺，處理堆積在多語言環(huán)境中的行為信息[10]。學習標簽分析具備較強的標注信息預測能力，能夠按照多語言角色屬性的發(fā)展趨勢，確定標注節(jié)點的流失速率，并以此為條件，判斷所有語義角色節(jié)點的聯(lián)合性需求水平。至此，完成所有關聯(lián)性條件的分析處理，實現(xiàn)基于Self-Attention多語言語義角色標注聯(lián)合學習方法的順利應用。

圖3 標簽字節(jié)預測原理

3 實驗

為突出說明基于Self-Attention多語言語義角色標注聯(lián)合學習方法的實效性，設計對比實驗。

在多語言大數(shù)據(jù)環(huán)境中，基于MATLAB仿真平臺進行目標對象確定、文本語言輸出標簽序列模糊度和級聯(lián)重顯示三個指標的實驗測試。

實驗數(shù)據(jù)在ImageNet數(shù)據(jù)集中選取輸出性能良好的信息流作為監(jiān)測對象，以搭載語義角色標注聯(lián)合學習方法的計算機作為實驗組檢測元件，搭載傳統(tǒng)序列標注方法的計算機作為對照組檢測元件，在相同實驗時間內(nèi)，分別記錄實驗組、對照組指標向量的具體變化情況。

3.1 目標對象確定

通過人工篩選的方式，在多語言大數(shù)據(jù)環(huán)境中確定語義角色信息流的具體數(shù)值水平。在Self-Attention導流層的促進下，初步定義待標注角色節(jié)點，再借助多語言傳輸層，完成最終的聯(lián)合標注處理，如圖4所示。

圖4 學習對象確定過程

在聯(lián)合標注處理的過程中，多語言語義角色的輸入始終滿足Self-Attention卷積神經(jīng)網(wǎng)絡的定義原理，在標注節(jié)點與輸出節(jié)點之間執(zhí)行自由傳輸指令，并在聯(lián)合學習行為的要求下輸出完成標注的數(shù)據(jù)信息體。其聯(lián)合標注行為結果如圖5所示。

圖5 聯(lián)合標注行為結果

3.2 文本語言輸出標簽序列模糊度

文本語言輸出標簽序列模糊度(TSA)即用某種序列對語義結構進行識別標記，其標記點占總語義的多少稱為標簽序列模糊度，可直接反映語義角色數(shù)據(jù)的標注水平，通常情況下，文本語言輸出標簽序列模糊度指標數(shù)值越小，語義角色數(shù)據(jù)的聯(lián)合標注程度越高，反之則越低。實驗組、對照組TSA指標的具體變化情況對比結果如表1和表2所示。

表1 實驗組文本語言輸出標簽序列模糊度

表2 對照組文本語言輸出標簽序列模糊度

續(xù)表2

由表1可知，實驗前期實驗組TSA指標始終保持穩(wěn)定，而實驗中期卻開始持續(xù)下降，實驗后期再次轉換為穩(wěn)定狀態(tài)，整個實驗過程中的最大值僅達到37.6%。由表2可知，前40 min的實驗時間內(nèi)，對照組TSA指標始終保持不斷上升的變化趨勢，從第45 min開始逐漸趨于穩(wěn)定，全局最大值達到60.1%，遠超實驗組極值水平。綜上可知，應用基于Self-Attention的多語言語義角色標注聯(lián)合學習方法可以達到降低文本語言輸出標簽序列模糊程度的目的。

3.3 級聯(lián)重顯示指標

級聯(lián)重顯示指標(DIT)也能反映語義角色數(shù)據(jù)的標注水平，其對候選詞進行重排序，通常情況下，級聯(lián)重顯示指標數(shù)值越大，語義角色數(shù)據(jù)的聯(lián)合標注程度越高，反之則越低。實驗組、對照組DIT指標的具體變化情況如圖6所示。

圖6 級聯(lián)重顯示指標對比圖

由圖6可知，隨著檢測時間的增加，實驗組、對照組DIT指標均呈現(xiàn)下降、上升交替出現(xiàn)的變化趨勢，在10～20 min之間同時達到最小值，在30～40 min之間同時達到最大值，但實驗組最大值水平超過90%，遠高于對照組的50%。綜上可知，應用基于Self-Attention的多語言語義角色標注聯(lián)合學習方法能夠不斷提升級聯(lián)重顯示指標等數(shù)值水平。

4 結語

在Self-Attention原理的支持下，多語言語義角色標注聯(lián)合學習方法按照傳統(tǒng)序列標注方法的發(fā)展需求建立完善的卷積神經(jīng)網(wǎng)絡，再根據(jù)分類特征提取結構完成標簽字節(jié)的預測處理。所設計多語言語義角色標注聯(lián)合學習方法的創(chuàng)新點是標注詞邊界字向量，在執(zhí)行Self-Attention卷積神經(jīng)網(wǎng)絡聯(lián)合學習指令的同時定義標注處理節(jié)點所處的具體位置條件。從實用性角度來看，若不考慮其他影響，TSA指標下降、DIT指標上升具備同時存在的可能，多語言環(huán)境下的級聯(lián)重排序模式出現(xiàn)趨于穩(wěn)定的變化行為。