蘇江文
(福建億榕信息技術有限公司,福建福州 350003)
深度學習描述了待學習數據樣本的表示層次規律及內在表現形式,在實際學習過程中,已獲取的聲音、圖像、文字等數據信息,能夠為應用指令提供更加可行的執行方向。其最終處理目標是讓機器具備像人一樣的學習分析能力,從而使數據信息的識別流程逐漸趨于完善[1-2]。總的來說,深度學習是一個相對較為復雜的機器學習算法,在圖像、語音等信息識別方面具備較強的實際應用價值。
遠程監督關系抽取是一種極為有效的語句提取方法,可在數據應用框架的基礎上,對所有信息參量的具體釋義行為進行詳細描述[3]。然而隨著實體化遠程監督語句數值量水平的提升,個別語言信息的實際分辨能力開始不斷下降,易導致識別等待時間的無限延長。為解決此問題,詞義型抽取手段在非編碼條件的作用下,對所有遠程監督語句進行逐一定義,再聯合既定的解碼模板,分析其中所隱藏的詞義條件,然而該方法的執行速率過慢,易造成語句信息的大量堆積。為避免上述情況的發生,引入深度學習理論,設計一種新型的遠程監督關系抽取方法,在關系三元組、數據標注信息等多項應用條件的作用下,確定與待抽取標簽匹配的語句學習行為,實現對句子級別特征的準確定義。
在遠程監督方法中,必須假設兩個關系實體在學習知識庫中存在某種聯系,且包含這兩個實體的描述語句都能描述這種原始的信息關系。遠程監督方法與詞義型抽取手段一樣,不需要大量人工標注數據集,就能實現對種子模板質量問題的研究,但在既定解析時間內,后者的抽取速度明顯低于前者[4-5]。通過上述分析可知,基于深度學習遠程監督關系的構建主要分為如下兩個步驟:第一步,獲取與詞義語句相關的關系三元組;第二步,對所有語義文本中的數據信息進行標注處理。圖1 為遠程監督方法實踐流程。

圖1 遠程監督方法實踐流程
關系三元組描述了遠程監督關系語句的實際連接形式,可在已知監督方法實踐流程的基礎上,確定特殊學習節點所具備的數據承載能力,從而確定最終抽取指令的實際操作步長值。在不考慮其他干擾條件的情況下,關系三元組獲取結果受到遠程監督關系語句輸出量、語句調度步長值兩項物理量的直接影響[6-7]。遠程監督關系語句輸出量常表示為χn,在深度學習權限值等于n的情況下,待抽取的語義數據越多,最終計算所得的關系三元組定義量也就越精準。語句調度步長值常表示為β,一般情況下,該項物理量的數值水平越高最終抽取處理所得的關系三元組信息總量也就越大。聯立上述物理量,可將關系三元組獲取結果表示為:

其中,emin代表最小的遠程監督語句抽取系數;emax代表最大的遠程監督語句抽取系數;代表語句定義權限量;ΔW代表單位時間內的監督語句傳輸變化數值。
待學習數據標注操作需要同時進行句子級別特征定義、多示例條件選擇、分類查詢3 個處理流程。其中,句子級別特征定義可為不同遠程監督關系數據匹配不同的實體輸入模型,并可借助字符級別權限,將所有加權輸入信息整合到一起,最后形成獨立的句子級特征向量條件。多示例條件選擇可將同一個句子級別注意力轉移給多個不同的語句權重量,再通過間接性屏蔽的方式,調取遠程監督關系語句中的待學習詞匯信息[8-9]。分類查詢分別對應多個不同的深度學習型函數,可在句子級別特征條件的支持下,實現對待抽取語句標簽的實時定義。設w1、w2、w3分別代表3 個不同的待學習數據信息參量,T代表單位抽取時長,聯立式(1),可將待學習數據的標注結果表示為:

其中,U代表遠程監督關系語句在單位時間內的最大定義量;代表語句傳輸均值。
在遠程監督關系抽取數據集的支持下,按照監督框架搭建、句子級別特征定義、待抽取標簽學習的處理流程,實現基于深度學習遠程監督關系抽取方法的順利應用。
基于深度學習的遠程監督關系語句抽取框架由語句級特征、深度學習注意、多標簽分類三部分共同組成。其中,語句級特征包含S、H 兩類應用型抽取關系節點,前者能夠直接調取與遠程監督方法相關的關系三元組參量,并可在不違背深度學習法則的基礎上,確定語義數據的實際應用能力;后者可在接收語義數據信息的同時,建立與深度學習節點的物理連接,從而實現對遠程監督關系語句的傳輸與調度[10-11]。深度學習注意單元中只包含一種N 型抽取關系節點,可在已知頭標簽、過渡標簽、尾標簽劃分需求的同時,完成對遠程監督關系語句調取規則的構建。圖2 為監督框架結構。

圖2 監督框架結構
句子級別特征是指應用分布式行為,構造遠程監督關系語句的深度學習法則。可借助監督框架提取語句信息中的高級特征,并將其整合成既定的數據連接形式[12-13]。一般情況下,語句字符級別注意力能夠與監督條件加權值保持實時對應關系,且每個時間步長量的詞級特征都可在既定抽取時間內始終保持一致。在語句文本中,除了特定符號信息之外,所有字符之間均保持緊密相連狀態,且始終沒有明顯的詞性邊界,因此很難將語句數據直接提取出來[14]。大多數遠程監督關系語句均由字符組信息組合而成,且其組合的復雜程度越高,最終定義所得的句子級別特征量也就越清晰。設l0代表與遠程監督關系語句相關的最小分布式行為常數項,f代表深度學習算法的實際作用權限量,聯立式(2),可將遠程監督關系的句子級別特征定義為:

在傳統的遠程監督關系學習方法中,可用一個語句示例表示一個真實的數據對象,且該示例與表示該示例對象相關類別權限的學習標簽始終保持對應關系。一般情況下,一個訓練集只能由一類帶有已知標簽的示例信息數據共同組成,通過對已有標簽的訓練集樣本進行學習處理,可以得到一個目標應用函數,在語句信息實際抽取過程中,以此函數來正確分類未知的信息示例標簽,能夠實現對單示例標簽語句結構體的準確學習[15-16]。在一個數據參量組別中,待抽取的遠程監督關系語句信息越多,學習標簽所具備的實際應用能力也就越強,反之則越弱。設υ0代表與語句特征參量相關的最小標簽學習系數,υn代表與語句特征參量相關的最大標簽學習系數,聯立式(3),可將遠程監督關系語句的待抽取標簽學習行為定義為:

其中,χ代表監督關系語句的遠程監督系數;i代表語句數據的實際抽取步長值;Dˉ代表語句數據在單位時間內的傳輸均值。至此,實現各項系數應用指標的計算與處理,在深度學習理論的支持下,完成遠程監督關系抽取方法的搭建。
為驗證基于深度學習遠程監督關系抽取方法的實際應用能力,設計如下對比實驗。在相同語句傳輸環境中,截取兩組數量級水平相等的待識別數據信息作為實驗組、對照組實驗對象,其中實驗組控制主機搭載基于深度學習的遠程監督關系抽取方法,對照組控制主機搭載詞義型抽取手段。
表1 反映了實驗參數設置情況,出于應用公平性考慮,除所使用抽取控制行為不同外,實驗組、對照組實驗參數始終保持一致。

表1 實驗參數設置表
已知遠程監督語句的可同時調度量能夠反映學習主機對語言處理信息的準確提取能力,一般情況下,可同時調度量越大,學習主機對于語言處理信息的準確提取能力也就越強,反之則越弱。
表2 記錄了實驗組、對照組遠程監督語句可同時調度量的實際變化情況。

表2 遠程監督語句可同時調度量對比
分析表2 可知,隨著實驗時間的延長,實驗組遠程監督語句可同時調度量保持先上升再穩定的變化趨勢,且實驗前期的上升幅度明顯大于實驗中后期,全局最大值達到了8.5×1011T。對照組遠程監督語句可同時調度量則在一段時間的穩定狀態后,開始出現持續性下降的變化狀態,全局最大值僅能達到4.2×1011T,與實驗組極大值相比,下降了4.3×1011T。綜上可知,應用基于深度學習的抽取方法后,遠程監督語句可同時調度量出現了明顯增大的變化趨勢,能夠有效提高學習主機對語言處理信息的準確提取能力。
語句分辨等待時間反映了學習主機對于遠程監督語句中實體語義關系的實際判定能力,一般情況下,分辨等待時間越短,學習主機對于遠程監督語句中實體語義關系的判定能力越強,反之則越弱。圖3反映了實驗組、對照組語句分辨等待時間的實際變化情況。

圖3 語句分辨等待時間對比
分析圖3 可知,在語句信息量水平相同的情況下,實驗組分辨等待時間的數值水平明顯低于對照組。從極值角度來看,實驗組最大值為5.7 min,與對照組最大值7.4 min 相比,下降了1.7 min。綜上可知,應用基于深度學習的抽取方法后,語句分辨等待時間得到了有效控制,能夠增強學習主機對于遠程監督語句中實體語義關系的實際判定能力。
為了解決傳統方法存在的執行速率過慢,易造成語句信息大量堆積的問題,提出基于深度學習的遠程監督關系抽取方法。與詞義型抽取手段相比,基于深度學習的遠程監督關系抽取方法可在關系三元組條件的作用下,實現對待抽取標簽的學習與處理。從實用性角度來看,語句分辨等待時間的縮短能夠促進遠程監督語句可同時調度量的增大,可在準確提取語言處理信息的同時,實現對實體語義關系的有效判定。