



摘要:深度學習作為人工智能技術的核心,目前已廣泛應用于自然語言處理等語言學分支領域,但尚未有學者對相關研究進行綜述性分析。為探究語言學領域深度學習的研究現狀、熱點前沿和趨勢,該文以Web of Science核心數據庫中的文獻資料為數據源,利用CiteSpace對2008—2024年間語言學領域深度學習研究的知識圖譜進行可視化分析。結果顯示,語言學領域深度學習研究正快速發展但尚處起步階段;當前語言學領域深度學習研究以少數技術強國為主導,國際合作較少;熱點聚焦算法更新、語義表征與語言習得,同時跨學科融合程度不斷提升。未來研究應進一步創新研究范式與多學科融合,加強國際合作與跨文化研究,關注技術的前瞻性。
關鍵詞:語言學;深度學習;人工智能;文獻計量;CiteSpace;可視化
中圖分類號:H08" " " " " " " " " " " "文獻標識碼:A" " " " " " " " " "文章編號:2096-4110(2025)02(b)-0167-05
Bibliometric Visualization Analysis of Deep Learning in the Field of Linguistics
XIA Shuyang, HU Weijie
(College of Foreign Language, Zhejiang Normal University, Jinhua Zhejiang, 321004, China)
Abstract: Deep learning, a core AI technology, is widely applied in fields like NLP, yet lacks comprehensive reviews. To explore the current state, research hotspots, and trends of deep learning in linguistics, this study uses literature from the Web of Science Core Collection as its data source. By employing CiteSpace, the study systematically visualizes the knowledge maps of deep learning research in the field of linguistics from 2008 to 2024. The results indicate that while deep learning research in linguistics is rapidly developing, it remains in its early stage. Research is predominantly concentrated in a few leading countries with limited international collaboration. Current studies focus on algorithm updates, semantic representation, and language acquisition, with an increasing degree of interdisciplinary integration. Future research should prioritize the innovation of research paradigms and interdisciplinary collaboration, strengthen international cooperation and cross-cultural studies, and pay attention to the forward-looking aspects of technology.
Key words: Linguistics; Deep learning; Artificial intelligence; Bibliometrics; CiteSpace; Visualization
目前,以深度學習為核心的人工智能技術,已在各領域帶來了顛覆性影響[1]。對此,各國政府給予極高的關注度。早在2019年,歐盟就曾在有關文件中提出要關注深度學習技術的功能性。美國也在國家發展戰略中明確提出加強深度學習等核心技術的研究和開發,以促進學科合作。近年來,我國也逐漸重視相關議題,提出要搭建深度學習計算平臺,構建“深度學習+”的新型范式生態鏈[2]。與此同時,深度學習的相關技術也已在部分語言學分支領域取得極大的發展和運用。
因此,進一步促進相關研究發展,打造“深度學習+”范式是一個具有較高研究價值的領域。本研究以Web of Science核心數據庫收錄的語言學領域深度學習研究文獻為對象,通過可視化分析呈現此領域的研究現狀、熱點及趨勢。
1 研究設計
1.1 研究方法
本研究基于CiteSpace(6.3.R3 64-bit Advanced版)對數據進行分析。首先,通過統計發文量、引文量及發文國家,揭示相關研究的現狀;其次,通過關鍵詞共現、高頻關鍵詞和關鍵詞聚類分析識別研究熱點;最后,通過關鍵詞突現和時區演變分析研究趨勢。
1.2 數據來源
本研究數據來源于Web of Science核心數據庫,以“深度學習(Deep Learning)”為檢索主題詞,文獻類型限定為“研究論文(article)”,研究領域限定為“語言學(linguistics)”,檢索時間截至2024年11月16日,通過手動篩選,剔除會議紀要、編輯寄語、人物訪談等冗余信息,最終獲得2008—2024年的130篇文獻。
2 文獻基礎數據分析
2.1 發文量與引文量
語言學領域深度學習研究呈現明顯階段性特征,如圖1所示。2008—2017年為研究起步期,年發文量、引文量均在10篇以下;2018—2020年為緩慢發展期,年均發文量和引文量緩慢增長;2021年以后,語言學領域深度學習研究進入快速增長期,其中,2021年的增長速率最快,發文量和引文量均顯著提升。自此,深度學習研究發文量和引文量均以穩健態勢保持增長,可見相關研究正在逐漸受到國際學界的關注,但仍保持較低基數水平。綜上,根據相關數據,可判斷語言學領域深度學習研究尚處于起步階段,需要繼續發展技術和理論促進研究。
2.2 發文國家與地區
從總體分布上來看,本研究收集的46個國家和地區中,發文量排名前10的國家和地區累計達到115篇。發文量最高的是美國,達到30篇。美國作為人工智能基礎技術領域基礎研究的強國和重要技術來源國,為深度學習發展提供堅實的科技基礎。發文量排名第二的是中國。2023年,中國人工智能學會印發了《中國人工智能系列白皮書——深度學習》,系統梳理深度學習領域的現狀、熱點、產業應用和發展方向,為進一步推動相關研究發展提供重要依據[3]。
3 研究熱點與趨勢
3.1 研究熱點
關鍵詞是對文章內容的高度概括和凝練,因此對關鍵詞進行分析有利于把握研究熱點。本研究選取頻次前10名的關鍵詞進行分析,如表 1所示。由檢索主題導致的頻次、中心性較高的關鍵詞不計入排名。
由表 1可得,熱點關鍵詞為“自然語言處理”“語言”“表征”等。基于關鍵詞共享網絡對文獻中的關鍵詞進行聚類,可視化結果如圖 2所示。結果顯示,Q=0.824 3gt;0.03,說明聚類圖譜的網絡社團結構顯著、網絡聚類好;S值=0.940 5gt;0.05,說明聚類結果具有高信度、網絡的同質性高。聚類為新紋狀體(neostriatum)、人工智能(artificial intelligence)、自然語言處理(natural language processing)、機器學習(machine learning)、監控(monitoring)、德語(german)、語言習得(language acquisition)、發音動作音系學(articulatory phonology)、語義文本相似性(semantic textual similarity)、運動特征(kinetic features)。綜上,將語言學領域深度學習研究的核心熱點歸納為“科研工具的革新”“語義與表征學習”“語言習得與驗證”。
3.1.1 科研工具的革新
深度學習通過模擬人類大腦的神經連接[4],從數據中提取多層特征,采用一系列非線性變化,描述數據特征。谷歌工程師團隊在2017年提出“Transformer”架構,取得廣泛成功。在此基礎上研究者又開發出Ro-BERTa、T5等模型。Kelmen及其團隊分析在低資源語言的命名實體識別中,將形態特征加入LSTM和BERT模型的效果,發現形態特征對模型性能的提升因任務和特征質量而異,總體上對前者提升更顯著,對后者作用有限[5]。Baykara和Gungor利用預訓練的Seq2Seq模型,在土耳其語文本摘要和標題生成任務中取得有效成果,并證明單語BERT模型在多方面均優于多語模型[6]。可見隨著深度學習的發展,有關算法和模型也在不斷改進和革新。
3.1.2 語義與表征學習
在語義與表征的相關領域,通過引入預訓練語言模型的語義學習框架,在接受大規模語料的訓練后,有效地編碼了上下文語義關系和語言結構特征。Pavlick重點探討深度學習中的語義表征,分析其從分布式意義假設到自上而下的語義建模轉變,尤其是對詞匯語義、世界知識和組合意義的捕捉能力及其作為通用語義模型的潛力[7]。Merkx和Frank提出了一種基于視覺信息的多模態句子編碼器,通過圖像—文本匹配有效捕捉句子語義,并在多項任務中取得了杰出表現,強調了視覺信息對語義學習的重要性[8]。
3.1.3 語言習得與驗證
美國應用語言學學會第45屆年會就曾圍繞“利用人工智能開展二語習得研究”展開研討。而深度學習作為人工智能的核心技術,在語言習得研究中的作用也越來越重要[9]。Wilcox等人探討了深度學習自回歸語言模型對英語填充—間隙依存關系及其島嶼約束的學習能力,發現模型不僅能掌握基本依存關系,還能理解層級和無界性約束,為反駁刺激貧乏論提供新的實證支持[10]。
3.2 研究趨勢
為更好地了解和分析國際語言學領域深度學習相關研究的演變趨勢,本研究通過繪制關鍵詞演變時區視圖和關鍵詞突現圖,直觀呈現研究趨勢的變化,如圖3、圖4所示。
由圖 3和圖4可知,2008—2017年間,出現的關鍵詞與語言學領域聯系度并不高,突現關鍵詞數量稀少,結合上文可知主要原因是相關研究文獻數量少,研究力量薄弱。
2018—2020年,將深度學習和語言學進行結合的關鍵詞開始增多,說明在該階段,深度學習已經開始融入語言學領域的相關研究中。例如,自動語音識別、機器學習、照料者語等,凸顯深度學習在話語識別分析領域的先行先試。
2021 年起,相關研究呈迅猛增長態勢并突現重要關鍵詞——人工智能,標志語言學領域深度學習研究的進一步發展。關鍵詞所囊括的范圍逐漸變大,例如,比較心理學、計算機社會科學,深度學習關聯關鍵詞進一步細化,如卷積神經網絡、深度神經網絡,說明語言學領域深度學習跨學科程度增大,有關算法不斷細化。
4 研究結論與展望
4.1 研究結論
本研究系統梳理了2008—2024年130篇語言學領域深度學習文獻的整體態勢、熱點主題與發展趨勢,得出如下結論。
第一,語言學領域深度學習研究正處于快速發展期,反映了學界的高度關注。但該領域尚處于起步階段,需進一步擴大研究規模、創新研究范式。
第二,語言學領域深度學習研究多集中于深度學習和人工智能強國,國際學術合作有待進一步加強。
第三,語言學領域深度學習研究熱點內容聚焦于深度學習算法的更新、語義表征與學習及語言習得與驗證,逐漸提升跨學科程度。
4.2 后續展望
本研究結果啟示,未來語言學領域深度學習有關研究可在以下方面持續深化。
第一,創新研究范式與多學科融合。語言學領域深度學習研究需從傳統范式向跨學科融合發展。隨著多模態大模型技術的發展,應探索利用多模態數據豐富語言學的研究維度,為相關研究提供新路徑。
第二,加強國際合作與跨文化研究。當前語言學領域深度學習研究以少數技術強國為主導。需加強國際學術交流,構建多邊合作機制,尤其是對低資源語言的深度學習研究。重視跨文化研究,探索跨文化場景下深度學習模型的泛化能力與適用性。
第三,關注技術的前瞻性。深度學習技術的快速迭代對語言學研究提出了新的挑戰與機遇。研究者應關注前沿技術,預測其潛在應用價值,推動語言學與人工智能的協同發展。
5 結束語
本文基于Web of Science核心合集數據庫,借助 CiteSpace對數據進行分析研究。
首先,通過分析發現語言學領域深度學習研究整體呈現上升趨勢,快速發展,但相關研究尚處于起步階段。且深度學習研究多集中在美、中、英等人工智能技術強國,但國際間學術合作較少。
其次,相關研究多聚焦深度學習算法更新、語義表征與學習及語言習得與驗證,并且在發展過程中不斷提升跨學科程度,融合比較心理學、計算機社會科學等領域知識。
總體來看,目前語言學領域深度學習尚處發展階段,雖已有眾多成果,仍有較大發展空間,未來應注重創新研究范式與多學科融合、加強國際合作與跨文化研究及關注技術前瞻性。本文歸納總結語言學領域深度學習研究現狀、熱點及演進趨勢,以期為對該領域感興趣的學者提供研究思路,推動語言學領域深度學習研究發展。
參考文獻
[1] 袁毓林.人工智能大飛躍背景下的語言學理論思考[J].語言戰略研究,2023,8(4):7-18.
[2] 新一代人工智能發展規劃[J].科技導報,2018,36(17):113.
[3] 中國人工智能學會.中國人工智能系列白皮書:深度學習[R].北京:中國人工智能學會,2023.
[4] 尹寶才,王文通,王立春.深度學習研究綜述[J].北京工業大學學報,2015,41(1):48-59.
[5] KLEMEN M,KRSNIK L,Robnik-?觢ikonja M. Enhancing deep neural networks with morphological information[J].Natural Language Engineering,2022,29(2):360-385.
[6] BAYKARA B,Güng?觟r T.Turkish abstractive text summarization using pretrained sequence-to-sequence models[J].Natural Language Engineering,2022,29(5):1275-1304.
[7] PAVLICK E. Semantic Structure in Deep Learning[J].Annual Review of Linguistics,2023(9):131-155.
[8] MERKX D,FRANK S L. Learning semantic sentence representations from visually grounded language without lexical knowledge[J].Natural Language Engineering,2019,25(4):451-466.
[9] 周鵬.兒童語言習得機制跨學科研究:進展、問題和前景[J].語言戰略研究,2021,6(1):48-59.
[10]WILCOX E G, FUTRELL R,LEVY R. Using computational models to test syntactic learnability[J].Linguistic Inquiry,2022,55(4):805-848.