/中國運載火箭技術研究院
互聯網上的知識大都以非結構化或者半結構化的形式存在于文本、表格和網頁中,使得對知識的抽取以及應用較為困難,谷歌公司認為完美的搜索引擎應該能夠準確理解用戶的意圖并且正確反饋用戶所期望的信息。與人的記憶偏重于關聯類似,搜索結果中也體現著關聯,以“鏈接”為中心的系統在開放的互聯網環境里更容易生長和擴展。傳統的語義網連接的是文檔,實際上網絡中有多種類型的事物,這些事物之間有多種類型的連接。把文檔作為“鏈接”的語義網得到的搜索結果僅僅是文檔的鏈接,而不是用戶需要的比文檔更細粒度的準確的答案,以關鍵詞匹配和文檔排序為基本特點的搜索引擎急需一場革命。
在此背景下,為了改善搜索引擎效果,谷歌公司于2012年提出“知識圖譜”的概念。把互聯網文本內容組織成為以實體為基本語義單元(節點)的圖結構,其中圖上的邊表示實體之間的語義關系。相對于傳統的知識表示,知識圖譜把數據對象作為鏈接而不是文檔,其具有豐富且完整的語義信息、結構精良、接近自然語言的表達等優點。知識圖譜的這些優點使得機器能夠理解、搜索關鍵字,從而實現由搜索直接通往答案。
近年來,由于知識圖譜表示學習技術在智能問答系統、知識推理引擎和語義搜索等應用中扮演著十分重要的角色,基于知識圖譜的表示學習技術已經成為人工智能領域中的研究熱點。同時,知識圖譜表示學習技術可以應用在知識圖譜補全和關系抽取等比較困難的任務中,并取得了重要進展。表示學習旨在將研究對象的語義信息表示為稠密低維實值向量,向量空間中2個對象的距離越近說明其語義相似度越高。知識表示學習是面向知識圖譜中的實體和關系進行表示學習,在向量空間中高效計算實體和關系的語義聯系,有效解決數據稀疏問題,使知識獲取、融合和推理的性能得到顯著提升。
張量神經網絡模型(NTN)的基本思想是,用雙線性張量取代傳統神經網絡中的線性變換層,在不同的維度下將頭、尾實體向量聯系起來。與以往模型的不同之處在于,張量神經網絡模型中的每一個實體向量是通過計算這個實體中所有單詞向量的平均值得到的。因此,張量神經網絡模型可以非常充分地重復利用單詞向量來構建實體表示,大幅度地增強了知識圖譜中實體之間的語義關聯,從而有效緩解了對于實體表示的稀疏性問題。
張量神經網絡模型的缺點在于引入了張量操作,使得計算的復雜度非常高,實驗表明張量神經網絡模型在大規模非常稀疏的知識圖譜上效果較差。針對張量神經網絡模型的不足,后續有很多研究人員提出了張量神經網絡模型的簡化版本,以彌補其計算復雜度高的問題。其中,隱變量模型(LFM)利用基于關系矩陣的雙線性變換來刻畫實體和關系的二階聯系,與張量神經網絡模型相比該模型計算復雜度較低、協同性更好。后來出現的DISTMULT模型是針對隱變量模型進行簡化,將隱變量模型中的關系矩陣簡化為對角陣,更大幅度地簡化了模型復雜度,取得了更好的效果。
矩陣分解是近幾年比較火的算法,在推薦算法中得到廣泛的認可和使用,具有很好的準確性和可擴展性,并且可以降低計算復雜度。同樣,很多學者采用矩陣分解模型用于分布式知識表示學習算法,主要算法是RESACL模型。該模型的基本思想與隱變量模型相似,不同之處是RESACL模型優化了張量中的所有位置,該模型將知識庫三元組構成了一個大的張量表示,如果三元組存在則該三元組對應的張量值設為1,不存在則張量值設為0。張量分解的目的在于將知識圖譜中的每個三元組對應的張量值分解為實體和關系的表示,使得該張量值盡可能地與三元組中的2個實體向量和關系矩陣的乘積接近。
知識圖譜Schema構建方法。在知識表示層面,圍繞增強知識圖譜的語義表達能力這一核心目標,重點研究企業內和開放互聯網中對企業有價值的知識的符號化及數字化的表示方法,包括領域知識的概念及元數據構建等。擬采用思維導圖建模的人工方式和知識抽取的自動方式相結合的知識圖譜Schema構建方法,實現對多領域知識的實體和多任務等不同維度的信息理解,形成以知識為中心的知識管理系統的檢索能力。
基于最小描述長度的概念識別。擬利用編碼長度指導概念的選擇,從而完成概念識別。其基本原理是:最優的概念標簽具有最強的語義表達能力。因而一個好的概念標簽組合,一方面自身的編碼長度應該盡可能短,另一方面利用這組概念標簽對于實例集進行編碼的長度也應該非常短。2類編碼長度之和構成了最優編碼集的選擇準則,其模型公式為arg minCL(C)+L(X|C)。

圖1 基于深度遷移學習模型的命名實體識別
基于深度遷移學習的命名實體識別。命名實體識別(NER)是指識別文本中具有特定意義的實體,主要包括人名、地名、機構名、專有名詞等,是構建知識圖譜的基礎。傳統的實體識別方法難以充分利用開放領域或者其他領域已積累的知識,存在一定局限性。為此,筆者設計了應用于自然語言處理任務的多層知識遷移學習模型,該模型可以便捷地適用于多種深度神經網絡結構中,如循環神經網絡和卷積神經網絡。
由于特定領域的訓練數據匱乏,無法利用特定領域數據訓練有效的NER模型。但是,NER在開放域和特定域有大量類似特征,如相同的詞匯、相同的句法,并且開放域的訓練數據往往很充足,因此擬利用遷移學習解決樣本稀疏問題,方法的核心算法架構如圖1所示。其基本思路是分別利用LSTM對開放域和特定域進行訓練,并將開放域習得的中間表示遷移、嫁接給特定域,使得特定域能夠充分利用開放域所習得的字、詞、句表示。
基于主題模型的實體鏈接。命名實體鏈接是把文檔中給定的命名實體鏈接到知識庫中一個無歧義實體的過程,包括同義實體的合并、實體消歧,提升后續的基于知識庫的信息檢索能力。選擇實體-主題模型(Entity-Topic model)作為模型的基本框架,將文檔中的詞和命名實體映射到統一的主題空間中,通過主題空間中命名實體的位置向量與知識庫標準實體的向量進行實體鏈接,達到同義實體合并、實體消歧的目的。
然而,這一模型在性能與效率方面仍然難以滿足領域實體識別的高精度要求,擬通過引入外部概念圖譜和實體同義詞庫作為先驗知識引導主題模型學習到同名領域實體的細微語境差別。將學習過程從無監督轉變為半監督,在吉布斯采樣過程中縮小采樣范圍,在保證準確率的前提下提升算法的運行效率,實現準確快速的實體鏈接,其基本模型如圖2所示。
基于深度學習的端到端三元組關系抽取方法。傳統的三元組抽取受限于樣本規模,在長尾關系上效果難以滿足實際應用的需求,長尾關系的精準抽取一直以來是學術難題。筆者提出基于遞進學習的端到端抽取可以讓長尾關系抽取模型有效利用頭部關系的豐富樣本中所包含的信息,這一思路在關系抽取中的應用尚屬首次。關系抽取的重要形式之一是從非結構化的文本中抽取出三元組,擬利用弱監督標注的思路為每個關系自動構造標注數據,從而為每個關系獨立訓練雙向LSTM抽取模型。

圖2 先驗知識敏感的基于主題模型的實體鏈接

圖3 基于LSTM的端到端抽取模型
為了提高模型性能,擬增強樣本的語義描述,包括語法標記、實體類型等。為了解決長尾關系樣本稀疏、模型訓練不充分這一問題,擬借助遞進學習合理安排不同關系抽取模型的訓練順序,優先訓練頭部關系的抽取模型,習得通用上下文的有效表示,從而降低長尾關系模型對于樣本的依賴,基于LSTM的端到端抽取模型如圖3所示。