王海峰/WANG Haifeng,孫宇/SUN Yu,吳華/WU Hua
(北京百度網訊科技有限公司,中國北京100193)
自然語言處理中的預訓練模型與語言模型的建立密切相關。語言模型是自然語言處理的一個重要分支。早期的語言模型能夠對由單詞組成的文本序列進行概率建模,并計算句子的聯合概率。該模型技術被廣泛應用于自然語言處理任務中,例如語音識別、機器翻譯等。
2003年,隨著深度學習技術的發展,Y.BENGIO等提出神經網絡語言模型NNLM。該模型被用來學習詞的分布式表示以解決詞表示的維數災難問題。2013年,詞表示訓練技術Word2Vec被提出。該技術可使用詞的上下文來對當前詞進行建模,從而學習單詞的分布式向量表示。隨后,一系列詞表示技術如雨后春筍般涌現,例如基于詞匯共現矩陣的GloVe、基于字符級別N-Gram的FastText等。詞表示技術的提出是深度學習在自然語言處理方向應用的一座里程碑。這種技術極大地加速了自然語言處理領域的發展進程。
由于Word2Vec詞表示技術僅能將語言中的詞語映射到一個靜態的、與上下文無關的語義表示空間上,因此該技術無法解決語言中的一詞多義問題。2018年,ELMo模型采用了雙向長短期記憶(LSTM)網絡對文本序列的上下文進行建模。該模型能夠將雙向語言模型中的不同層表示進行融合,并計算上下文相關的詞表示,在一定程度上解決了一詞多義問題。緊接著,BERT模型使用雙向Transformer網絡對文本序列進行建模,并采用預訓練-微調方法一舉刷新眾多自然語言理解任務的基準紀錄。預訓練模型技術的成熟進一步推動了自然語言處理的發展。
與傳統監督學習方法不同,基于自監督學習方法的預訓練-微調首先對大規模無標注數據進行學習,然后再對小規模任務標注數據進行微調,如圖1所示。由于能同時對未標注文本和標注文本進行學習,預訓練-微調方法取得了遠超傳統監督學習的效果,并且顯著縮小了任務標注數據的規模。因此,預訓練-微調方法逐漸成為自然語言處理領域的應用范式。近期,基于超大規模預訓練模型的預訓練-提示方法取得了能夠與預訓練-微調方法相媲美的效果,并逐漸成為自然語言處理領域的又一范式。該方法可將下游任務改造為自然語言表達形式,使下游任務的建模形式更接近預訓練模型的學習過程,從而挖掘出預訓練模型強大的零樣本和小樣本學習能力。

圖1 傳統監督學習(上)與預訓練-微調(下)的對比
得益于深度學習技術和硬件算力的飛速發展,以BERT、GPT-3、ERNIE 3.0為代表的預訓練語言模型在自然語言理解、語言生成、機器翻譯、人機對話等領域取得了突破性進展。預訓練模型的出現使得人們對自然語言處理領域的研究重點從過去的結構工程轉移到目標工程上,即從設計不同的網絡結構并引入相應的歸納偏置,轉移到基于統一的Transformer模型來設計啟發式的預訓練目標。預訓練模型憑借自監督學習方法和預訓練-微調應用方法,已逐步占據自然語言處理領域的主導地位。
當前的預訓練模型主要依賴大量無結構化數據的學習。由于缺少外部知識指導,這些模型存在學習效率不高、模型效果不佳和知識推理能力受限等問題。因此,如何使用知識來增強預訓練模型的表示能力,是預訓練模型研究和應用的難點之一。目前,主流的知識增強預訓練模型主要分為兩類。一類模型可通過弱監督方法,對文本中蘊含的知識進行標注,然后設計知識類預訓練任務,以便對文本中的知識進行學習。例如,ERNIE 1.0通過對數據中的短語和實體進行標注并掩碼,來學習文本中的知識。文獻[16]對實體知識進行替換,使語言模型能夠根據上下文信息對知識圖譜中的實體和關系進行推斷,從而加強對文本序列知識的學習。另一類模型可對構建好的結構化知識庫和無結構化文本進行聯合預訓練學習,例如K-BERT、CoLAKE和ERNIE 3.0。通過對結構化知識和海量無結構化數據的聯合學習,知識增強的預訓練模型可以很好地提升知識記憶能力和推理能力。
根據融合知識的類型和作用,本文將預訓練模型分為3類:融合語言知識的預訓練模型、融合世界知識的預訓練模型和融合領域知識的預訓練模型。
語言知識是理解自然語言的基礎,主要包含詞法知識、句法結構知識、語義知識等。預訓練模型對語言知識的融合方法有兩種:一種是通過自動標記無標注文本中的語言知識來指導預訓練模型的學習,另外一種是融合人工構建的語言知識庫。ERNIE-Gram通過構建基于N-Gram的多粒度掩碼語言模型,可同時學習N-Gram內部和N-Gram之間的語義關系,使模型能夠同時捕獲細粒度和粗粒度語言知識,顯著提升了模型的語義表示能力。除了融合語言粒度知識外,也有工作研究如何學習句子中的語義關系。通過在預訓練的過程中對指代消解進行建模,CorefBERT增強了模型對語義知識的學習能力。其中,“指代”是自然語言表達中的常見現象。基于在一段文本中多次出現的命名實體是同一個事物的假設,CorefBERT提出提及指代預測算法。通過預測文本中被掩蓋的、重復出現的命名實體,該算法提升了模型對指代關系的建模能力。
上述方法主要對無標注數據中蘊含的人類知識進行標注,讓模型通過學習標注信息來融合語言知識。此外,也有研究將人工構建的語言知識庫融合到預訓練模型中。其中,WordNet和HowNet是具有代表性的語言知識庫。這些知識庫含有豐富的語言知識。以WordNet為例,它將不同詞性的單詞各自組成一個同義詞集合。每個同義詞集合各表示一個基本的語義概念。WordNet利用語義關系將這些集合連接成網絡。其中,每個詞語均有對應的解釋和例句。Sense-BERT融合了WordNet中的超義等概念知識。通過還原被掩蓋的詞并預測其對應的超義,該模型可以顯式學習詞語在給定語境下的語義信息。SenseBERT在詞義消歧等任務上的效果取得了顯著提升。LIBERT利用WordNet中詞語與詞語間的同義關系和上下位關系設計了詞匯關系分類預訓練任務過程,增強了預訓練模型對語義信息的建模能力,在大部分自然語言處理任務上的效果均有提升。
人類在認識世界的過程中產生了大量的世界知識。其中,部分知識可以利用實體以及實體之間的關系進行描述,比如“安徒生”創作了“《夜鶯》”。研究者通過知識圖譜來表達這些世界知識。在知識圖譜中,實體表示網絡中的一個節點,實體間的關系則表示對應節點間的邊。利用知識圖譜存儲世界知識,并讓模型顯式學習人類對世界的認知,是融合世界知識的預訓練模型采用的重要方法。KEPLER將預訓練上下文編碼器與知識模型相結合,使得預訓練模型不僅可以將圖譜三元組中的事實知識更好地融合到模型中,而且還可以通過豐富的實體描述,有效地學習實體和關系的知識表示。不同于KEPLER,有的模型將語言和知識進行統一表示。CoLAKE將文本序列視為一個全鏈接的詞圖,并以每個實體為錨點,將文本中實體所對應的知識圖譜中的子圖進行連接,以構成一個同時包含詞語、實體和關系的詞語-知識圖。通過學習詞語-知識圖,模型能夠同時融合訓練語料中的語言知識和圖譜中的世界知識。然而,CoLAKE主要側重實體在知識圖譜中的建模,卻忽視了實體在訓練語料中的表述。為此,ERNIE 3.0提出知識圖譜與文本平行預訓練的方法,使用文本來表述知識。ERNIE 3.0突破了異構結構化知識表示與無結構文本表示難以統一建模的瓶頸。
人工智能行業應用存在著豐富的、由眾多行業專家積累的專業知識。當前的預訓練模型主要依賴互聯網數據進行訓練。數據中缺乏行業相關的領域知識,導致預訓練模型在專業領域的自然語言處理任務上的表現不佳。以醫療領域為例,CBLUE的應用表明,通用預訓練模型處理該類任務的效果差于人類。為了增強預訓練模型在專業領域的應用效果,研究者們對如何將領域知識融入到預訓練模型進行了探索。BioBERT是一個生物醫學領域的預訓練模型。實驗表明,在生物醫學語料庫上的預訓練可以顯著提高模型在生物醫療領域任務上的性能。針對領域知識的預訓練方法,ERNIE-Health利用醫療實體掩碼算法對專業術語等實體知識進行學習。同時,通過醫療問答匹配任務,該模型能對病狀描述與醫生專業治療方案的對應關系進行學習,可獲得醫療實體知識之間的內在聯系,在包含醫學信息抽取、醫學術語歸一化等中文醫療文本處理任務上的效果取得了顯著提升。進一步地,結合世界知識和領域知識的學習方法,BERT-MK基于醫療知識圖譜的子圖進行學習,提高了預訓練模型在醫療領域任務上的應用效果。
為了充分地融合領域知識,以FLAN、ExT5和T0為代表的模型分別收集了60、107、171個領域的任務數據,并針對每項任務設計了任務模板。將多種多樣的任務轉化為由文本至文本生成的統一格式,使模型在預訓練階段就能融合并使用多領域、多任務的知識,可顯著提高模型的通用能力與泛化性能。PPT延續了將多種任務通過模板轉化為統一格式的方式,在預訓練階段就可對連續提示詞進行領域知識的學習,提升了模型在訓練樣本匱乏的下游任務上的少樣本遷移能力。
知識增強預訓練模型通過融合多種類型的外部知識來顯著提升自身性能。然而,在學習知識的過程中,模型通常存在知識遺忘問題,即在學習新的知識后會忘記之前學過的知識。因此,如何解決知識遺忘問題顯得非常重要。為了避免知識遺忘,ERNIE 2.0構建了持續預訓練的框架。在該框架下,每當引入新任務時,該框架可在學習該任務的同時仍記住之前學過的知識。此外,K-ADAPTER通過不同的適配器來學習世界知識和語言知識。在下游任務中,該方法能夠將不同適配器產生的特征表示進行拼接,并生成同時具有各種知識的表示,從而將多種知識同時應用到任務中,有效解決了知識遺忘問題。
本文中,我們將以百度文心(ERNIE)知識增強預訓練模型為例,詳細闡述知識增強預訓練模型的模型結構、知識融合方法,以及該模型在知識增強跨語言預訓練模型、知識增強跨模態預訓練模型上的擴展。文心是最早探索預訓練模型融入知識的工作之一,并在文獻[14]和文獻[34]等工作中逐步迭代。其中,最新的ERNIE 3.0 Titan模型使用2 600億個參數,在海量的未標注文本數據和大規模知識圖譜中持續學習,突破了多源異構數據難以統一表示與學習的瓶頸,在60余項任務上的表現是最好的。
文心使用了一種通用語義表示與任務語義表示相結合的模型框架,如圖2所示。該框架融合了自編碼和自回歸等不同的任務語義表示網絡。因此,文心既可以同時完成語言理解和語言生成任務,又能進行無標注數據的零樣本學習和有標注數據的微調訓練。該模型結構共包括兩層:第1層是通用語義表示網絡,該網絡主要學習數據中的基礎知識和通用知識;第2層是任務語義表示網絡,該網絡可基于通用語義表示來學習與任務相關的知識。不同任務語義表示網絡可通過自編碼結構或者自回歸結構來實現。底層共享有助于這些任務語義表示網絡實現交互和增強。在學習過程中,任務語義表示網絡只學習對應類別的預訓練任務,而通用語義表示網絡則學習所有的預訓練任務。

圖2 文心模型結構
文心將Transformer作為基礎的模型結構,通過多層統一的自注意力機制,采用并行計算的方式來獲得詞與詞之間的關系權重,并根據所得到的權重來生成每個詞在整段語義單元的動態詞表示。為了增強模型對長距離語義知識的建模能力,文心引入了遞歸性記憶單元,并在此基礎上形成了一種增強記憶力機制,使模型能夠對超長文本進行建模。
ERNIE 2.0擁有一種持續學習的預訓練框架,可增量學習海量數據中的知識,持續提升語義理解效果。如圖3所示,知識可通過預訓練任務的形式加入訓練框架。每當引入新的預訓練任務時,該框架可在學習新任務的同時學習之前的任務。新任務與舊任務之間通過多任務進行學習可避免知識遺忘。基于該框架,模型可以快速學習詞法、結構、語義層面的語言知識、實體-關系世界知識等。模型的通用能力可得到大幅提升。ERNIE 2.0將這種學習方式與傳統的持續學習及多任務學習進行對比,結果證明了該方法的有效性。

圖3 文心模型中的持續學習語義理解框架
2.3.1 語言知識融合方法
ERNIE 1.0模型提出了知識增強的預訓練方法,即知識掩碼預訓練方法。該模型通過對海量數據中的字、詞、實體等不同語言單元和知識進行建模,來學習不同粒度語言知識的完整語義。圖4給出了傳統預訓練模型和ERNIE 1.0學習方法的對比。在預測還原過程中,傳統預訓練模型通過諸如“哈爾濱”“黑龍江”等短距離固定記憶對被掩碼的字進行還原,難以學習到“哈爾濱”“黑龍江”等命名實體的完整語義。而在ERNIE 1.0的學習過程中,只有學習到“哈爾濱”“黑龍江”等命名實體的關系,“哈爾濱”這一命名實體的屬性才能正確預測被掩蓋的知識。ERNIE 1.0本身可基于字特征輸入完成建模,在應用時不需要依賴其他信息,具有很強的通用性和可擴展性。例如,在對紅色、綠色、藍色等表示顏色的詞語進行建模時,ERNIE 1.0通過相同字的語義組合可以學習詞之間的語義關系。

圖4 文心語言知識學習方法
在語義知識融合方面,短句中的連詞往往準確地表示了它們的細分邏輯語義關系。例如,在“因為人們的濫砍亂伐,所以今年以來洪澇不斷”中,“人們的濫砍亂伐”和“近年來洪澇不斷”就是因果關系;“盡管風雨交加,但是同學們還是堅持按時到校上課”中的“風雨交加”和“同學們還是堅持按時到校上課”之間就是轉折關系。為了能夠實現短句間的邏輯關系建模,文心構建了邏輯關系知識:首先將具有邏輯關系的句子挖掘出來,然后再將句子中的連詞去掉,最后讓模型進行無監督的邏輯關系分類。
2.3.2 世界知識融合方法
ERNIE 3.0在引入蘊含豐富世界知識的大規模知識圖譜后,實現了海量無監督文本與大規模知識圖譜的平行預訓練。以圖5為例,ERNIE 3.0在訓練過程中會將文本端信息和知識端信息同時輸入到模型中進行訓練。知識端信息會輸入圖譜中的三元組。例如,“安徒生”“作品”“《夜鶯》”三元組代表了《夜鶯》是安徒生的作品這一世界知識。文本端就會使用三元組中的“安徒生”和“《夜鶯》”在海量文本中檢索出與之相關的句子。ERNIE 3.0在訓練過程中使用聯合掩碼進行訓練。訓練過程主要包括兩個方面:在知識端方面,由于知識圖譜中的世界知識片段會被掩蓋,模型需要通過文本中的信息對知識端被掩蓋的信息進行推理;在文本端方面,由于無標注文本的語言知識片段也會被掩蓋,模型需要通過圖譜中的結構化信息對文本端被掩蓋的信息進行還原。這種方式促進了結構化的知識和無結構文本之間的信息共享,大幅提升了模型對知識的記憶和推理能力。

圖5 文心中的文本與知識平行預訓練
與 CoLAKE、K-BERT、KG-BART、KnowBert等融入知識圖譜的工作原理不同,ERNIE 3.0利用知識圖譜中三元組文本表述和對應的文本信息,在統一的空間同時對知識端和文本端進行平行學習。而先前的知識增強方法在融合知識與文本時使用了不同的編碼結構,使得知識與文本只能在不同的表示空間中被學習。大部分研究工作只強調知識對文本的增強,卻忽略文本對知識的作用,致使文本與知識的交互不充分。ERNIE 3.0增強了結構化知識與無結構文本間的雙向交互,提升了模型對知識的理解與推理能力。
文心所使用的一系列知識增強方法顯著提升了模型效果和學習效率,增強了知識推理能力。
知識增強預訓練模型顯著提升了下游任務效果。通過知識融合,相對于其他預訓練模型,ERNIE 3.0模型在包括情感分析、信息抽取、對話生成、數學計算、閱讀理解等21類54個自然語言理解和生成數據集上的效果是最好的。表1表明,在語義匹配、文本摘要等任務上,只用3%的參數量,知識增強預訓練模型就可以達到甚至超過百億參數非知識增強預訓練模型的效果。同時,百億參數的知識增強預訓練模型效果可以得到進一步提升。

表1 傳統模型與知識增強模型效果對比
知識增強預訓練模型的知識推理能力也得到了進一步提升。圖6給出了ERNIE 3.0 Titan模型和GPT-3模型在知識問答數據集上的對比效果。其中,ERNIE 3.0 Titan的準確率比GPT-3高8%。

圖6 GPT-3和ERNIE 3.0 Titan知識問答效果
在單語言理解與生成預訓練模型的基礎上,為了融合更多維度的知識,文心進一步衍生出知識增強跨語言模型和知識增強跨模態模型。
2.5.1 知識增強跨語言預訓練模型
不同語言中的語料蘊含了不同地區的人們在歷史發展過程中收集的不同知識。受限于語料的不完備性,模型從單一語言的語料中難以完全學到跨語言知識。因此,我們需要探索將多種語言數據中的知識進行融合的方法,以提升模型能力,解決單一語言數據的知識稀疏性問題。
知識增強跨語言預訓練模型實現了從多種語言數據中進行跨語言知識學習的目標。在預訓練過程中,ERNIEM會使用統一的模型同時對海量未標注的多語言數據進行建模,從而統一學習跨語言知識和跨語言語義表示。如圖7所示,對于DNA這一知識,不同語言的語料蘊含了不同的信息。因此,模型可以從不同語言中學到跨語言知識的不同側面。在跨語言預訓練模型使用某種語言的任務數據進行訓練后,其他語言的相同任務無須進行進一步訓練,即可實現跨語言遷移。這種跨語言遷移方式能夠解決低資源語言任務數據稀疏性問題,有助于實現任務知識在不同語言間的遷移。從單語語料中學習多語間的隱式語義對齊知識的方法,能夠突破雙語平行語料規模對跨語言模型的限制。ERNIE-M對96種語言進行統一建模,并在5項跨語言任務中取得了最好的效果。

圖7 知識增強跨語言模型ERNIE-M
2.5.2 知識增強跨模態模型
跨模態表示學習的目標是,通過對齊語料學習跨模態的通用聯合表示,將各個模態之間的語義對齊信號融合到聯合表示中,從而提升下游任務效果。目前的視覺-語言跨模態預訓練方法,例如ViLBERT等,在預訓練過程中無法區分普通詞和與場景相關的詞,學到的聯合表示也無法實現模態間細粒度語義(如物體、物體屬性、物體間關系)的對齊。
ERNIE-ViL將包含細粒度語義信息的場景圖先驗知識融入視覺-語言跨模態預訓練過程中,如圖8所示。基于場景圖的結構化知識,ERNIE-ViL創建物體預測、屬性預測、關系預測3個預訓練任務,在預訓練過程中更加關注細粒度語義的跨模態對齊,從而可以學習到能夠刻畫更好跨模態語義對齊信息的聯合表示,并提升自身在視覺問答、視覺常識推理、引用表達式理解、跨模態文本-圖像檢索等5個多模態典型任務上的應用效果。

圖8 跨模態知識增強模型ERNIE-ViL
隨著預訓練技術的快速發展,知識增強預訓練模型有著非常廣闊的應用場景,例如搜索引擎、推薦系統、智能創作、人機對話、文檔分析、金融風控、智慧醫療等。這里,我們將從搜索引擎、人機對話、行業領域應用3個方面,詳細闡述知識增強預訓練模型的應用。
搜索引擎通過對網頁內容和用戶查詢請求進行分析和理解,讓用戶可以在海量的互聯網數據中查詢到所需的信息。通用的預訓練模型很好地提升了搜索引擎效果,例如:谷歌在BERT問世一年之際宣布將預訓練模型應用到搜索引擎中,并稱BERT比以往任何技術都能更好地理解用戶搜索意圖;微軟將Turing-NLG模型應用在必應搜索方案中,使得搜索引擎在搜索框內即可輔助用戶完成查詢詞的輸入;在中文搜索引擎中,百度將知識增強的文心模型運用到搜索引擎的不同檢索階段,包括端到端的大規模語義索引系統、精細化語義相關性建模、智能問答等。得益于基于大規模文本和大規模知識的自監督訓練,文心模型可以幫助搜索引擎更加準確地理解網頁內容和用戶查詢語句,從而提升搜索結果的準確性。傳統的搜索引擎通過文章中的詞語建立倒排索引,并通過統計相同詞語的個數等方式來計算查詢詞與網頁的相關性。這種方式只能為用戶返回字面上匹配的內容。基于知識增強預訓練模型的搜索引擎,通過查詢請求和網頁內容的統一語義表示,實現了基于語義理解與匹配的搜索,使搜索效果顯著提升。
除了應用于搜索引擎的檢索階段和排序階段之外,文心知識增強模型也能對用戶搜索查詢的意圖進行分析與識別。用戶搜索意圖識別的準確性將直接影響用戶使用搜索引擎的滿意度。傳統的用戶意圖識別方法多基于監督學習方法,受限于標注數據的覆蓋度,對冷門知識信息搜索查詢的識別準確率并不高。而基于文心的用戶搜索意圖識別方法,能夠學習大量的數據和知識,具備更強的泛化性,使得冷門知識信息搜索意圖準確率比傳統方法高12%。
讓機器像人一樣有邏輯、有知識、有情感地與人對話,是人機交互的重要發展方向之一。知識增強的對話預訓練模型通過對海量無標注數據和大規模知識的學習,使人機對話系統可以更容易模仿人與人的交互方式,讓人使用更加自然的方式與機器交流。典型的應用包括智能音箱、智能客服、智能車載等。
文心系列模型包含了基于知識增強的對話預訓練模型PLATO。基于PLATO模型,我們探索了知識內化和知識外用兩種知識增強技術,如圖9所示。知識內化是指,在訓練階段,模型將知識信息內化到模型參數中。通過多階段的模型訓練方式來引入大規模通用領域問答知識,可使PLATO融入生成問答能力,進而將問答準確率從3.2%提升至90%。知識外用是指,在推理階段,模型動態地引入外部知識以指導回復生成。這兩種方式能夠有效提升PLATO多輪對話的內容豐富度和主題連貫性。

圖9 知識增強的對話預訓練模型
知識增強預訓練模型在醫療、金融、媒體等人工智能行業中表現出極大的應用價值。
在醫療行業中,中國的醫療衛生事業存在醫療資源不平衡、醫生人力短缺等問題。基于知識增強預訓練模型構建的臨床醫療輔助技術是解決這些問題的關鍵技術之一。知識增強的醫療語義理解與圖推理模型,可實現醫學知識的計算,并通過患者場景化子圖推斷,實現可循證的醫學決策。該技術突破了以往數據驅動的深度學習技術不可解釋的局限,大幅提升了推理決策效果,具備貼合醫學臨床診療思維的優點,改善了臨床輔助決策和智能診前助手等場景應用效果,提高了醫護人員臨床工作效率。
在金融行業中,知識增強的文心模型被用于金融文本分析,提高了企業對金融信息的處理與決策效率。金融行業需要處理大量的文本信息,例如企業新聞、行業報道、招股書、財報、合同等。在傳統模式下,金融從業人員很難從海量文本中獲得有效信息。而基于文心模型構建的金融知識計算引擎能夠幫助他們從海量的金融文本中快速查找到有用的關鍵信息。例如,文心模型能夠對保險合同中的條款文本進行解析,可實現39個維度的關鍵信息抽取,使單份合同的處理時間從30 min降低到1 min,能顯著提升金融從業人員的工作效率和決策能力。
在媒體行業中,知識增強的文心模型對語言、知識和創作成果進行持續學習,能夠實現智能輔助創作。在文章撰寫的過程中,基于文心模型的智能創作引擎會對全網熱點資訊進行系統分析與計算,為撰稿人提供素材推薦、智能糾錯、標題生成、用詞潤色、文章審校等全方位的幫助。除了自動創作文本外,知識增強的跨模態文心模型實現了以文生圖。文心模型可根據文章的文字內容輸出具有原創性和藝術性的圖片,并將其作為文章的配圖使用,進一步豐富內容創作。在知識增強預訓練模型的幫助下,智能創作平臺將人類從重復勞動中解放出來,有效提升了內容生產的效率和效果。
本文系統闡述了知識增強預訓練模型的發展脈絡,分析了現有知識增強預訓練模型對語言知識、世界知識、領域知識等知識的融合方法,重點介紹了文心知識增強預訓練模型的原理、方法和應用效果。通過搜索引擎、人機對話、行業應用3個方面詳細介紹了知識增強預訓練模型的應用。
知識增強預訓練模型已經取得長足發展,但諸多研究方向依然面臨巨大挑戰。例如,由于知識的稀疏性,現有知識增強預訓練模型依舊難以解決邏輯、常識等問題;由于模型是基于深度神經網絡方法來建立的,模型的可解釋性、可靠性和可控性仍然較差。因此,如何使模型更具常識性,如何提升模型的可解釋性和可靠性,以及如何將跨模態知識、符號化知識與深度學習進行深度融合,都是知識增強預訓練模型未來發展的重要方向。