江洋洋,金 伯,張寶昌
1.北京航空航天大學 圖書館,北京100191
2.北京建筑大學 國際化發展研究院,北京100044
3.北京航空航天大學 自動化科學與電氣工程學院,北京100191
4.北京航空航天大學 人工智能研究院,北京100191
自然語言處理(Natural Language Processing,NLP)是一種以理論為基礎的自動分析和表示人類語言的計算技術[1]。自然語言處理涉及許多研究和應用技術[2-8],如語言建模、文本分類、機器翻譯、自動問答、自動文摘等。近年來,由于深度學習(Deep Learning,DL)擁有強大的特征提取和學習能力,已逐漸成為自然語言處理領域中的主流技術。深度學習的概念最早是由Hinton 等人[9]在2006年提出的,是一門用于學習和利用“深度”人工神經網絡的機器學習技術,主要算法模型包括卷積神經網絡(Convolutional Neural Networks,CNN)、循環神經網絡(Recurrent Neural Networks,RNN)和遞歸神經網絡(Recursive Neural Networks,RNN)[10]。作為人工智能領域中最熱門的研究方向,深度學習的迅速發展受到了學術界和工業界的廣泛關注[11]。
自然語言處理被稱為人工智能皇冠上的明珠,代表了人工智能的最終目標[11]。因此如何使用深度學習技術推動自然語言處理領域的發展是當前的研究熱點和難點。與此同時,國內外學者高度關注該領域,并展開了大量的研究工作。盡管已有的深度學習算法模型如CNN、RNN 等在自然語言處理領域已經有較為廣泛的應用,但還沒有重大突破。可以說深度學習在自然語言處理領域(DL-NLP)的研究目前仍處于起步階段,因此圍繞DL-NLP的研究還有很長的路要走,以及一系列的問題需要解決。
以往的文獻綜述往往局限于從自身角度出發進行定性分析,未能從更加客觀的“第三人”視角進行全面的定量研究。基于此,本文采用定量與定性相結合的方法,一方面利用文獻計量學方法與可視化工具,梳理和分析DL-NLP的主要研究國家、機構、主題演變、發展路徑與發展趨勢;另一方面閱讀領域內的重要文獻,深入挖掘DL-NLP 的研究趨勢、存在的主要問題或發展瓶頸,并給出相應的解決辦法與思路,為DL-NLP 的后續研究與發展提供參考與幫助。
科學知識圖譜能夠通過可視化的手段來呈現科學知識的結構、規律和分布情況[12]。目前用于可視化分析的軟件有很多且各具優勢,本研究主要采用目前主流的分析軟件VOSviewer[13]和CiteSpace[12]進行可視化繪圖。在本研究中,VOSviewer用來理清文獻信息在復雜網絡(如合作機構、關鍵詞等)中的關系。CiteSpace 的文獻共被引分析功能可以在知識網絡中捕捉文獻聚類和關鍵文獻節點,從而對該領域的發展路徑和發展趨勢有更加精確和清晰的認識。
本研究所使用的文獻數據來自Web of Science 核心合集中的SCIE(Science Citation Index Expanded)和SSCI(Social Sciences Citation Index)數據庫。SCIE 和SSCI 是文獻計量分析中最常用的數據庫[14-15]。這兩個數據庫比其他數據庫涵蓋更多的科學和權威出版物。考慮到DL-NLP研究涵蓋許多分支內容[7,16-18],為提高查全率,將檢索條件設置為:TS=(“deep-learn*”OR“convolutional neural network*”OR“recurrent neural network*”OR“CNN*”OR“RNN*”OR“long short-term memory network*”OR“LSTM”OR“recursive neural network*”)AND(“natural language process*”OR“natural language*”OR“NLP”OR“part-of-speech tagging”OR“POS”OR“syntactic analysis”OR“sentiment analysis”OR“opinion extraction”OR“opinion mining”OR“sentiment mining”OR“subjectivity analysis”OR“machine translation”OR“text categorization”OR“information retrieval”OR“information extraction”OR“word sense disambiguation”OR“syntax analysis”OR“text mining”OR“language modeling”OR“automatic summarization”OR“question answering system*”OR“dialogue system”OR“text classification”OR“automatic speech recognition”OR“single turn dialogue”OR“named entity recognition”OR“word segmentation”OR“dependency parsing”OR“semantic parsing”OR“multi-turn dialogue”OR“sentiment classification”),時間跨度定義為2000—2021 年。檢索日期為2021 年4 月13 日。共檢索文獻3 236 篇。對所得文獻進行篩選,剔除新聞、社論、書評等無關文獻后,得到有效文獻3 054篇。
圖1描繪了DL-NLP文獻的年度發文分布。自2000年以來,DL-NLP相關文獻在隨后的十幾年中增長非常緩慢,直到2014 年,特別是2016 年以后,越來越多的學者開始在這一領域展開研究,文獻數量呈指數級增長。

圖1 DL-NLP研究文獻年度分布趨勢Fig.1 Annual distribution trend of DL-NLP research literatures
增速如此之快的原因有很多:首先,2010年后,計算機運算能力的大幅提升支撐了深度學習算法的研究。其次,2013 至2014 年,CNN、RNN(循環)、RNN(遞歸)作為深度學習最主要的算法模型,開始在自然語言處理領域廣泛使用,并且推動了自然語言處理的快速發展。在這之后,每年發表的文獻數量逐漸增加。2016年,美國人工智能投資開始爆發,收并購案例持續增加,許多主研自然語言處理的人工智能企業如Wit.ai、DNNresearch、Maluuba、VocalIQ 等被微軟、蘋果、英特爾、谷歌等巨頭企業密集收購[19],文獻在這一年之后呈指數級增長。作為世界最重要的兩大經濟體,中美兩國也在這兩年相繼發布白皮書,推動了中美兩國的DL-NLP研究熱潮與發展。2017年,在美國人工智能各領域企業數量統計中,自然語言處理企業數量為252 家,排名第一[20]。從文獻增長曲線和發展空間可以推斷,2021年DL-NLP研究文獻將會繼續增加。根據Markets and Markets 的研究,自然語言處理的市場規模預計將從2019 年的102 億美元增長至2024年的264億美元。DL-NLP受到了越來越多的關注,預示著這一領域將繼續成為未來的研究熱點。
近年來,DL-NLP 領域的研究發展迅速。如圖2 所示,越來越多的國家參與了DL-NLP 的研究,其中美國和中國的學者發表的文獻數量最多。

圖2 國家/地區文獻數量地理可視化分布圖Fig.2 Geographic visualization distribution map of national/regional literature quantity
表1為發文數量排名前10的國家。可以看出,中國和美國在文獻數量、被引頻次和國際合作數量上都遠遠高于其他國家。說明中國和美國對該領域的合作態度最為積極和包容。此外,也要注意到由于中國的文獻數量大幅超過美國,因此國際合作率遠低于美國。

表1 文獻數量排名前10的國家Table 1 Top 10 countries in number of documents
共有來自2 574個機構的研究人員在DL-NLP領域發表了文獻,表2 列出了文獻數量排名前10 的機構,包括9 個中國機構和1 個新加坡機構。其中,發表文獻最多的機構是中國科學院、中國科學院大學和哈爾濱工業大學。在被引頻次方面,南洋理工大學、中國科學院和哈爾濱工業大學位列前三,均遠高于其他機構。在合作情況方面,中國科學院無論是合作強度還是合作數量均遠高于其他機構。總的來說,中國科學院與其他機構的合作態度是最積極的,合作力度也最強。而南洋理工大學雖然文獻數量遠不及中國科學院,但是由于被引頻次最高,在該領域產生了巨大的影響力。可以說,這兩個機構都為該領域的發展做出了很大的貢獻。

表2 文獻數量排名前10的機構Table 2 Top 10 institutions in number of documents
圖3顯示了機構的合作網絡(每個機構的最少文獻數量為8)。節點大小表示文獻的數量,節點顏色表示平均發表年份。值得注意的是,許多機構在該領域發表的論文數量差距并不明顯。總體而言,美國、歐洲等國家的機構起步較早,中國機構在該領域起步較晚。

圖3 機構合作網絡圖Fig.3 Collaborative network of institutions
通過數據統計,DL-NLP 的文獻發表在591 種期刊上,這些期刊主要分布在計算機科學、工程學、電子通信、醫學、化學、物理、材料科學、信息科學與圖書館科學、數學等學科。發表論文最多的前10種期刊如表3所示(多個分區的取最高分區)。31.925%的文獻(975篇)發表在前10種期刊上。這些期刊的2020年影響因子在2.679 到8.038 之間,其中,Knowledge Based Systems的影響因子最高,而Applied Sciences Basel最低。由JCR分區可見,Q1區的期刊占70%,Q2區的期刊占30%。通過對期刊分布的分析,有助于找到核心期刊。

表3 發文量最多的前10種期刊Table 3 Top 10 journals with the largest number of publications
本研究共涉及6 650個關鍵詞,其中5 402個關鍵詞僅出現1次,占81.23%。圖4顯示了關鍵詞的共現網絡(共現閾值為8)。根據圖4,深度學習、自然語言處理、卷積神經網絡、機器學習、循環神經網絡、情緒分析、長短期記憶網絡、神經網絡和注意力機制為高頻關鍵詞,這些關鍵詞的平均發表年份為2018 至2019 年。此外,特征提取、語義學、BERT(Bidirectional Encoder Representations from Transformers)、預測模型、上下文建模、誤碼率、邏輯門、自適應模型等可能是DL-NLP 領域的新興研究熱點,平均發表年份為2020年。

圖4 關鍵詞共現網絡圖Fig.4 Keywords co-occurrence network map
3.6.1 重點文獻選擇
共被引知識圖譜展示了共被引知識單元的游離與重組,并在重組中形成新的知識單元的過程。CiteSpace通過共被引文獻聚類的形成、積累和擴散,形成了從知識基礎(intellecture base)映射到研究前沿(research front)的概念模型。該過程展示了文獻的引用和共被引足跡[21-22]。通過CiteSpace 繪制科學美觀的共被引知識圖譜可以準確捕捉關鍵文獻節點和引文聚類。知識圖譜的科學性和效果評價的基礎依賴于網絡結構和聚類銳度給出的兩個指標,即聚類模塊值(MQ)和平均輪廓值(MS)。一般來說,當MQ>0.3 時,表示聚類結構顯著,當MS>0.7 時,認為聚類是令人信服的[22]。
過多的數據量使得圖譜過于復雜,無法找到關鍵文獻,因此去除冗余文獻信息十分必要。用CiteSpace 軟件對3 054 篇文獻數據反復繪制知識圖譜,調整多種數據過濾策略,最終將閾值設置為TopN=20,Year per slice=1,Thresholding(2,2,20;15,15,20;15,15,20),Pathfinder(pruning the merged network),得到MQ 和MS值更理想的圖進行共被引分析。
CiteSpace 通過中介中心性(Centrality)測度和衡量文獻節點的重要程度。關鍵文獻節點(Centrality>0.1)用紫色圈標記(圖5),此類文獻通常出現在關鍵路徑的轉折點,并且對DL-NLP知識領域的發展起到了積極的作用。此外,盡管一些高頻引文沒有用紫色圈標記,但它們加快了知識領域的延伸和擴展。因此,重點文獻的選擇標準基于高中介中心性和高被引頻次兩點。
3.6.2 DL-NLP研究軌跡
利用CiteSpace提供的聚類生成和標記功能對文獻信息進行聚類,采用對數極大似然率算法提取聚類標簽詞,將DL-NLP 知識域劃分為10 個知識聚類,如圖5所示(MQ=0.819 9,MS=0.939 2)。此外,為了描繪知識聚類的歷史跨度及其之間的關系,繪制了時間軸視圖(圖6)。

圖5 共被引網絡聚類圖Fig.5 Cluster visualization mapping of co-citation network

圖6 共被引網絡時間軸視圖Fig.6 Timeline visualization mapping of co-citation network
知識基礎和研究前沿之間具有二元時間對偶性(time-variant duality),因此知識基礎對研究前沿的相關性和歷史演變起著決定性作用。表4列出了10個聚類的參數,按照平均年份整合可以發現,DL-NLP 研究的主題演化路徑依次為2013年(條件隨機場)、2014年(圖像描述、任務分析)、2015年(視覺情感分析、文本分類、注意力機制、方面級情感分析)、2016年(情感分析、命名實體識別)、2017年(遷移學習)。

表4 共被引網絡聚類參數Table 4 Clustering parameters of co-citation network
通過詳細閱讀隱藏在不同聚類中的重點文獻,DLNLP 研究的發展路徑和趨勢浮出水面。由表5 可以發現,分布式表示的實現構成了DL-NLP 的基礎,此后CNN開始應用于NLP領域。CNN能夠有效地在上下文中挖掘語義信息,但是無法對遠距離上下文信息進行建模,也無法處理詞匯的順序信息。與CNN 不同,RNN(循環)可以處理詞匯的順序信息,并且具有靈活的計算步驟,可以提供更好的建模能力。由于RNN 容易出現梯度消失的問題,對其進行改進的長短期記憶網絡(Long Short-Term Memory,LSTM)開始流行。此外,由于計算能力有限導致信息超載問題嚴重,注意力機制作為一種資源分配方案,通過將計算資源分配給更重要的任務,有效緩解了這一問題。由于語言是具有層級結構的,而CNN 和RNN(循環)都將語言視為一個序列。因此,RNN(遞歸)網絡作為RNN(循環)的推廣,以樹形結構替代序列來表示語言,有效解決了數據結構的表征問題。此后,由于一些資源貧乏的語言缺乏充足的語言數據,深度學習模型無法從中學習總結到有用的規律,預訓練模型被用來解決這一問題[7]。BERT作為一款重要的預訓練模型,采用了Transformer的架構,一經推出便席卷整個自然語言處理領域,在11 種自然語言處理任務中取得最佳性能,帶來了革命性的進步。此后,以BERT 為基礎的改進模型相繼被提出,大大推動了自然語言處理領域的進步。
通過表5 可以發現,目前DL-NLP 研究側重網絡結構的優化改進。雖然深度學習模型已經廣泛應用在自然語言處理任務中,但是由于存儲空間和計算資源的限制,模型在移動端和嵌入式系統上的存儲與計算仍然面臨巨大挑戰。因此,在保持模型性能不變的基礎上,近一步減少模型的參數量和復雜度,即模型輕量化,是DL-NLP的研究趨勢。模型輕量化主要是對算法層的壓縮與加速,包括模型剪枝、結構優化設計、知識蒸餾、量化等。

表5 DL-NLP發展路徑和趨勢Table 5 Development path and trend of DL-NLP
模型剪枝主要分為權重剪枝[65-66]、通道剪枝[67-68]、核剪枝[69-71]和神經元剪枝[72-73]。Liu 等人[74]通過將ReLU 引入Winograd域,獲得激活函數(Activations)在Winograd域的動態稀疏度,通過對權重進行剪枝,獲得權重在Winograd 域的靜態稀疏度,將網絡剪枝與Winograd 變換相結合,有效實現了稀疏加速。Gordon等人[75]發現低水平修剪不會對預訓練損失及遷移至其他任務產生影響,中水平修剪和高水平修剪會增加預訓練損失,阻止預訓練遷移至其他任務。因此,在不影響性能的前提下,在預訓練階段僅對BERT 進行單次修剪即可。McCarley等人[76]通過結構化剪枝模型的參數,來壓縮基于BERT和RoBERTa的問答系統,具體包括結合修剪了Transformer 的attention heads 數量和前饋層的中間寬度,此外減少了嵌入維度。Guo等人[77]提出了一種專為大規模語言表征模型設計的修剪方法,即重新加權近似度修剪(Reweighted Proximal Pruning,RPP)方法。實驗表明,通過RPP修剪后的BERT模型針對多個預訓練任務和微調任務都保持了較高的準確性。
結構優化設計包括矩陣分解、權值共享、分組卷積[78-81]和分解卷積[82-83]等。目前,自然語言處理領域主要應用的是前兩種方法。Vaswani等人[54]使用Transformer架構探討了跨層共享參數的想法。Dehghani 等人[84]表明跨層參數共享在語言建模等方面比標準Transformer有更好的表現。Hao 等人[85]將參數共享的Transformer與標準Transformer 相結合,在多個任務中證明了該方法的有效性。Hieu 等人[86]提出了神經網絡架構搜索(Efficient Neural Architecture Search,ENAS),通過對所有子模型進行權值共享,避免從零開始訓練,從而達到提升速度的目的。Lan等人[63]采用矩陣分解和權值共享對BERT 模型進行了結構優化設計,提出了ALBERT模型。將嵌入層的參數量V×H分解為V×E+E×H,壓縮E/H倍。此外,將Transformer的每一層參數進行共享,參數量減少為原來的1/N(N=層數)。ALBERT在降低內存消耗的同時提高了BERT 的訓練速度。Wang 等人[87]提出了一種基于自適應矩陣分解的方法,將權重矩陣分解為兩個小矩陣,并設置兩個矩陣之間的對角線掩碼,通過在訓練過程中使用正則化選擇待移除的權重。
知識蒸餾的概念最初由Bucilua 等人[88]提出。之后,Hinton 等人[89]提出了知識蒸餾的壓縮框架,通過將復雜、學習能力強的教師模型學到的特征表示蒸餾出來,傳遞給參數量小、學習能力弱的學生模型,即將大型教師模型的信息轉移到較小的學生模型中[90]。Zhao 等人[91]引入了一種新的知識蒸餾技術,用于訓練具有明顯較小的詞匯量、較低的嵌入和隱藏狀態維度的學生模型。通過同時訓練教師和學生模型,獲得學生模型詞匯的最佳單詞嵌入,結合共享投影矩陣,將分層知識從教師模型傳遞至學生模型。Victor等人[92]在預訓練階段使用了知識蒸餾,提出了DistilBERT 模型。DistilBERT 中的教師網絡與BERT 一致,學生網絡去掉了標記嵌入(token embedding)和變量作用域(pooler)。在Transformer 編碼器的基礎上,將網絡層數減半,并且使用教師網絡的參數對學生網絡進行初始化。Jiao 等人[93]提出了針對Transformer結構的知識蒸餾,以及針對預訓練和微調的知識蒸餾,并提出了TinyBERT 模型。蒸餾過程中的損失函數包括嵌入層的損失、Transformer 層的注意力損失、隱藏狀態損失和預測層損失。其學生網絡不僅學習教師網絡的預測概率,還學習嵌入層和Transformer 層的特性。Subhabrata 等人[94]提出了兩種知識蒸餾方式:硬蒸餾(hard distillation)和軟蒸餾(soft distillation)。硬蒸餾是指通過微調教師模型,對大量無標記數據進行標注,用這些補充數據對學生模型進行監督學習。軟蒸餾是指用教師模型在未標記數據上生成的結果和內部表示對學生模型進行不同蒸餾方式的訓練。實驗證明基于RNN 的簡單學生模型在經過硬蒸餾的情況下,可以再次通過軟蒸餾以及教師模型的中間表示法獲得性能提升。
量化是指通過降低權重所需要的比特數,將神經網絡的浮點運算轉換為定點運算[90,95]。Han等人[96]采用了剪枝、量化和哈夫曼編碼的方式,實現了模型的大幅壓縮。Jacob 等人[97]介紹了一種訓練線性量化CNN 的方法,該方法使用整數算法替代浮點算法,在提高速度的同時只需占用很少的內存。Ofir等人[98]在BERT模型的微調階段執行了量化感知訓練,將全連接層和嵌入層的權值量化成8 bit,以最小的精度損失將BERT 模型壓縮了80%。此外,生成的量化模型如果針對8位支持硬件進行優化,可以加快推理速度。Shen等人[99]采用兩種量化方式來壓縮網絡。一種是基于Hessian信息的混合精度量化。由于BERT的Hessian行為存在極大不同,該研究提出一種基于最大特征值均值和方差的敏感度度量指標,以實現更好的混合精度量化。另一種是分組量化,將每個矩陣分解為不同的組,每個組擁有獨立的量化范圍和查找表。該方法在緩解準確率下降的同時,不會導致硬件復雜度顯著上升。
DL-NLP 存在的主要問題或發展瓶頸包含方法與應用兩個層面。下面分別對這兩個層面進行分析,并給出相應的解決辦法與思路供大家參考。
3.8.1 方法層面
DL-NLP 在方法層面主要存在五個問題,分別是缺乏理論基礎,模型缺乏可解釋性,對大量數據的需求,對強大計算資源的依賴,以及難以處理長尾問題。
(1)缺乏理論基礎
目前DL-NLP的理論基礎還不夠完善、深入。由于每種模型本身都有很多超參數,將這些超參數進行組合,工作量巨大,幾乎不可能單靠實驗來驗證完成。而且沒有理論基礎支撐,就無法證明僅通過實驗驗證的模型是最有效的方法,因此加強DL-NLP的深度思考和理論研究十分必要。由于DL-NLP 的理論基礎包括優化理論、線性代數、數理統計、概率論、逼近理論等多種學科內容,而主流的DL-NLP 研究人員數學基礎較為薄弱,重新學習的成本過高。因此,鼓勵數學專業或專研理論的研究人員參與DL-NLP的理論研究,加強與這些專業人士的深入合作是解決這一問題的主要思路。
(2)模型缺乏可解釋性
由于模型缺乏可解釋性或解釋效果不佳,且缺乏統一的評價指標等,直接導致模型的可信度和安全性降低[100]。目前已有的模型解釋性研究,如從模型內部進行可視化[101-102],對不同特征進行統計分析[103-108],利用具有可解釋性的模型,如線性模型、決策樹模型等,通過將黑盒的DL-NLP模型遷移到可解釋的模型中,通過可解釋模型內部的參數或者特征統計信息來解釋該黑盒模型[109-110]等可以作為解決思路。此外,建立模型可解釋性的統一評價指標,利用先進認知理論模仿人腦,設計可解釋的DL-NLP模型[111],建立實時可交互的智能人機系統[112]等也為未來的研究提供了思路。
(3)對大量數據的需求
由于深度學習網絡結構復雜且參數繁多,需要大量的訓練數據作為支撐,但是絕大多數自然語言處理任務沒有足夠的數據。雖然遷移學習、無監督學習、弱監督學習和少樣本學習等方法可以減少對數據的依賴,但是性能上依然無法與監督學習相比。目前的解決思路是,相關政府部門、研究機構和企業等,在保障數據質量和安全性的基礎上,共享海量的有監督數據[3]。優化深度學習算法,將傳統的機器學習與深度學習方法相結合是另一種解決思路。此外,通過將自然語言的本質抽象化,構建高質量的大規模有監督數據集也是解決的辦法之一。
(4)對強大計算資源的依賴
由于DL-NLP過于依賴計算資源的增加,模型框架越大,需要訓練和測試網絡的矩陣運算就越多,計算和能量消耗巨大。因此DL-NLP對計算能力的巨大需求限制了性能的提高程度。Ryan等人[113]提出了一種基于哈希法(Hashing)的新技術,結合自適應隨機失活(Adaptive Dropout)和最大內積搜索(Maximum Inner Product Search,MIPS)的隨機化哈希,大幅減少了訓練和測試神經網絡所需的計算量。此外,一些硬件加速器和異構計算平臺,如谷歌的張量處理單元(Tensor Processing Unit,TPU)、專用集成電路(Application Specific Integrated Circuit,ASIC)、現場可編程門陣列(Field Programmable Gate Array,FPGA)、阿里云異構計算平臺等緩解了計算機的工作量,提升了計算速度。與此同時,利用神經體系結構搜索和元學習提高計算效率,通過網絡壓縮和加速技術降低計算復雜性[114]也是解決的思路。
(5)難以處理長尾問題
由于低資源型語言沒有大量數據可使用,通常存在長尾問題。目前,解決長尾的方法主要有以下幾種:一是通過半監督學習和自監督學習提升數據的學習表現[115]。二是通過對不同類別樣本進行過采樣和欠采樣來平衡數據集分布。三是嘗試將標簽集的更多信息放入模型中,從補充信息的角度讓模型有更多的信息可以去學習。四是通過忽略稀有類別的梯度,即均衡化損失的方法來解決稀有類別的長尾問題[116]。五是給標簽設置不一樣的權值。六是利用專門解決少樣本問題的學習方法,如元學習、度量學習、遷移學習等。此外,也可根據實際情況綜合使用以上策略。
3.8.2 應用層面
目前,在自然語言處理的各個任務中,通常只報告最佳性能,很少提及平均水平、變化情況及最差性能[7]。如果模型產生高度可變的結果,可信度必然大打折扣。盡管越來越多的隨機參數減少了性能的變化,但總會存在一些差異,因此未來的改進方向是在研究報告中不僅提及最佳性能,還應涵蓋平均性能、變化情況和最差性能等。此外,建立統一量化的模型評價標準,從更加綜合、客觀的角度評估模型的實際性能水平也是未來主要的改進方向。
在文本分類任務中,雖然許多模型已經顯示了其在文本分類中的有效性(如DCNN、TextCNN、VDCNN、DenseNet、TopicRNN、Tree-LSTM、MT-LSTM、OpenGPT、BERT、XLNet、UniLM、FastText、DAN、doc2vec、CapsNets、NSE、GNN、SGC、S2Net、C-LSTM、DSCNN、SAN 等[117]),但仍有許多改進的方向值得探索。比如一些小的噪聲樣本可能導致決策置信度發生實質性變化,甚至導致決策逆轉,目前無法指示模型像人類一樣從語義層面“理解”文本,需要在實踐中驗證模型的魯棒性和語義表示能力。此外,對于上下文無關單詞向量的傳輸策略研究仍處于起步階段[118]。
在機器翻譯任務中,DL-NLP 的研究主要集中在英文和中文上。英語更是絕大多數任務的輸入或輸出語言,而這忽略了整個語言系統以及使用這些語言的人[7]。全世界有數千種語言,其中1 000多萬人使用著至少80種語言,許多語言的復雜性無法用常用的任何語言來表達。因此,未來主要的改進方向是對這些少數語種的語言進行收集和數據驗證,利用這些數據測試DL-NLP模型的性能。
在語言建模任務中,詞匯表示通常需要通過學習大量的語料庫得到,如何通過少量樣本發現新詞和低頻詞是未來的研究方向。
在信息抽取任務中,如何更加準確地對多源異構信息進行關系和事件的抽取等是未來值得探索的方向。
在自動文摘任務中,準確表達要點信息及評估信息單元的重要性也是未來的改進方向。
目前DL-NLP 的絕大多數研究人員將研究重點都放在開發新的模型及模型的優化組合上,鮮少有人重視模型訓練前的理論研究,導致許多深度學習模型在自然語言處理任務中的性能提升非常緩慢。因此將更多的精力放在方法研究上也是未來的改進方向。
由于深度學習還無法處理符號數據,而自然語言處理的大量知識是以符號的形式存在的,如何利用、組合符號數據和向量數據也是未來的研究方向。
此外,自然語言處理中有許多復雜的任務,單靠深度學習是不容易實現的。例如,多回合對話任務涉及語言生成、語言理解、對話管理、推理和知識庫訪問等多種技術,超出了深度學習的范疇。將深度學習和其他技術(如機器學習、強化學習等)相結合[10]可能是未來主要的改進方向。
本研究是對國際有關DL-NLP 的文獻進行定量與定性的結合分析。通過繪制科學的知識圖譜,從國家、機構、期刊、關鍵詞、參考文獻等多個角度展示了DL-NLP的研究現狀。此外,通過深入挖掘領域內的重要文獻,總結了DL-NLP 的發展趨勢以及存在的主要問題或發展瓶頸,并給出相應的解決辦法與思路。隨著技術的不斷推進,學者們需要保持推陳出新的科研態度,在不斷拓展研究范圍的同時,延伸各領域內的研究深度。
最后,對于如何跟蹤DL-NLP研究的相關成果給出建議,為DL-NLP 的后續研究與發展提供啟示與方向:(1)可以基于關鍵詞進行數據檢索與收集。(2)所提供的期刊可以作為追蹤文獻的渠道。(3)通過跟蹤一個機構的文獻以及機構之間的合作,進一步挖掘信息。(4)通過查看關鍵詞共現的時間趨勢,關注新出現的研究熱點。