

提要語言智能和語言數據聯系緊密。根據從中國知網搜獲的近20年來研究文獻來看,語言智能研究基本以2022年底ChatGPT上線為界分為兩個時期,前一時期主要關注技術,后一時期更加關注其對語言生活的影響。語言數據研究也以2020年數據被列為生產要素為界分為兩個時期,前一時期的研究基本上限于語言結構數據,后一時期開始放到語言生活層面。從學科體系、學術體系和話語體系的視角看,語言智能作為一個單獨的學科初具雛形,學術體系上已有較為豐富的積累,話語體系已成規模;而語言數據作為一個新的研究領域則正在興起。隨著“三人共生時代”和“人機融合智能時代”的到來,未來的語言智能和語言數據研究及其交叉研究必將更加重要。文章對具體的研究方向進行了分門別類的預測。
關鍵詞語言智能;語言數據;語言生活;人工智能;三大體系建設中圖分類號H002 文獻標識碼 A 文章編號 2096-1014(2025)03-0005-11DOI10.19689/j.cnki.cn10-1361/h.20250301
Language Intelligence and Language Data Research over the Past Two Decades
Wang Chunhui
AbstractThepasttwodecades have witnessdtherapiddevelopmentoflanguage intellgenceandlanguagedataresearch andshown theclose interconection betweenlanguage intellgenceandlanguagedata.Thisstudy provides areviewoflanguage intellgence and language data research over the past two decades.Overthe past two decades,the developmentof language intellgenceresearchcanbebroadlydividedinto twoperiods,withtheintroductionofChatGPTin2O22asthedividingline. The period before 2022 primarily focusedon technological advancements,while the period after 20 is characterized by an ncreasing emphasison the impactof language intellgenceon linguistic life.Similarly,studieson language datacan be delineatedbytherecognitionofdataasaproductionfactor,initiallyconfinedtolinguisticstructuraldataandlaterexpanded to analyses withinthecontextoflingusticlife.Fromtheperspectiveofthetheemajorsystems(i.e.disciplinarycademic, anddiscoursesystems),languageintellgenceresearch is emergingasanindependent discipline anditsdiscoursesystemis beginning totakeshape,withsubstantialaccumulation inacademic frameworks.Atthesametime,languagedataresearch,as an emergingresearchfeld,isburgeoning withpotential.Withthe adventof“theeraofhuman-machinesymbiosis”and\"the era ofhuman-cyber-physical systems”,futureresearchinlanguage intellgenceandlanguagedataispoisedtobecome increasingly
significantand holdsgreat promise.
Keywordslanguage intellgence;languagedata;linguisticlife;artificial intellgence;three-systemconstruction
一、引言
隨著神經網絡技術和生成式人工智能的崛起,在經歷了近70年的起伏跌宕之后,人工智能正在進人一個新的階段。語言是人類智能的結晶,自然語言信息處理是人工智能皇冠上的明珠,而人工智能領域“得語言者得天下”(馮志偉2018)。數據包容萬象,語言數據(口語的和書面語的)是其中的核心。在數據成為第五大生產要素的今天,數據為所有掌握數據的人提供了難以置信的優勢,數據本身已成為重要的權力來源(Slaughteramp;McCormick 2021),“萬模大戰”亦遵從“數據為王”的法則(胡泳,劉純懿 2024)。語言數據作為數據的主要形式,其意義無須多言。作為“中國語言生活研究二十年”系列論文之一,本文將聚焦20年來語言智能和語言數據的研究進展,從歷時和共時相結合的視角來予以回顧和展望。
先做3點說明。
(1)研究對象的限定。語言智能大致包括兩種類型:人類語言智能和機器語言智能。①對前者的研究以Gardner(1983)為代表。本文討論的顯然非此類型,而是后者。機器語言智能是通過算法和系統(如自然語言處理、機器學習和深度學習模型)的開發,使機器具備理解、生成、分析和應用人類語言的能力,從而實現人機高效交互與語言資源的智能化應用。它涉及的范圍很廣(李佐文,任佳偉2023),但因為本文聚焦的是語言生活研究20年的發展,所以非必要不涉及語言智能的技術層面,比如自然語言處理的技術探討(朱夫斯凱,馬丁2018),也基本不涉及語言智能的哲學維度(如徐愚2016;沈潔2022),而是聚焦語言智能和人工智能發展對于語言生活或語言社會產生的廣泛而深刻的影響,比如“算法回應建議”(智能回復)的廣泛使用所帶來的社會后果(杰斯·海恩斯坦,等2023),或者語言智能如何助力鄉村振興(孫茂松2022)等。
語言數據的情況亦是如此,但相比語言智能,“語言數據”被視作專門術語和研究方向主要是近幾年的事情。之前它基本上被包孕于語料庫/數據庫、語言經濟、語言產業、語言人力資本、語言資源等視角中,即使使用“語言數據”一語,也基本上是限定在語言普查數據(如戴紅亮2013)或者語言結構數據(如田阡子,等2007)。作為語言生活的研究對象,主要是從國務院2020年4月發布的《關于構建更加完善的要素市場化配置體制機制的意見》中將數據定義為第五大生產要素之后開始的。所以本文所指的“語言數據”就是在此意義上展開的,也就是主要考察近5年來的研究進展。
(2)語言智能與語言數據的關系。算法、算力、數據是人工智能的三大要素。而“數據是生成式人工智能發展的基礎,是決定生成式人工智能的能力和價值觀的核心要素”(張伯江2025);“AI是與大數據和深度學習聯動的,智能是通過深度學習的方法從數據中涌現出來的”(劉海濤 2024)。語言數據不僅為智能模型提供了訓練樣本,更成為推動語言智能進步的重要原動力。基于數據驅動的理論框架,可以將語言智能的發展視為一個“數據一智能一反饋一數據”的閉環機制。因此,語言智能和語言數據之間的關系是彼此互動且互為依賴,未來二者的研究也將是密切關聯和互為促動。這也是本文將二者放在一起討論的原因。需要說明的是,從研究成果來著,語言智能研究已成江河之勢,生產要素視角的語言數據研究還是涓涓細流。因為二者研究狀況的差異,所以本文呈現的是一主(語言智能)一次(語言數據)的格局。
(3)研究范圍的限定。創刊于2016年的《語言戰略研究》,既是中國語言生活研究的直接產物,也是語言智能和語言數據研究的最聚焦者之一,在一定程度上反映了近年來語言智能與語言數據研究的大致趨勢。所以本文將以此雜志為主、以其他文獻為輔進行分析。
下文將對二者研究的歷史發展進行勾勒與梳理(第二、三部分),進而展望它們未來的發展趨勢(第四部分)。
二、語言智能研究縱覽
(一)基本走勢
以“語言智能”或“自然語言處理”或“ChatGPT”為關鍵詞、時間范圍限定在2005年1月一2025年3月,以高級搜索模式搜索“中國知網”的“篇關摘”一欄,共找到32512條結果,篩選后獲得451條有效結果。①這些文獻的歷時發展趨勢如圖1所示:

通過文獻檢索和結果呈現,大致可以得出以下結論:(1)中國學界聚焦“語言智能”的研究以往主要是在Gardner(1983)的框架下進行的;(2)人工智能背景下的“語言智能”作為一個術語的出現大致始于2016年前后;(3)2023、2024和2025年的398篇文獻占到了總量的 88% 還多,由此可見2022年11月ChatGPT的上線直接促動了該領域研究的拓展和深人;(4)綜上可見,語言智能研究的20年其實基本上是10年,而這10年又基本可以分為ChatGPT上線之前和之后兩個時期,前一時期可以稱為技術驅動階段(關注和研究基本上限于自然語言處理領域內部),后一時期則可以稱為社會廣泛影響階段(擴散到自然語言處理領域之外,成為全社會關注和研究的焦點);(5)隨著通用人工智能的逼近,未來的語言智能研究會越來越受到關注。
(二)三大體系方面的建設
整體來說,語言智能作為一個單獨的學科正在建構力量,學術體系上已有了很多積累,話語體系方面還需加強。
1.學科體系初步建構
語言智能研究在學科體系方面有3個主要影響方向。第一個方向是語言智能發展對語言學學科整體發展的影響。比如詹衛東(2013)指出,在大數據時代,漢語語言學研究應該更加注重語言工程的研究和開發,以提高漢語大規模語言資源的數量、類型及易獲得性,漢語語言學的研究應更加開放、更具多元化視角、更加注重多學科的交叉和融合;劉海濤、林燕妮(2018)討論了數據密集型語言研究范式及問題,并闡述基于數據的方法在語言學的學科建設與發展中所起的作用;李宇明(2020b)指出,新基建應是“智能新基建”,語言學的研究對象應當是具有“雙物種”屬性、在三元空間運行的語言,要考慮用“新文科”的思路培養適應數據時代需求的語言人才;施建軍(2020)提出,人工智能更加重視“語言理解”這一綜合過程中所要處理的具體語言任務,作為語言任務輸人的語言特征,以及語言任務結束后產出結果的體系描述,這些都是人工智能對語言學提出的有別于語言學傳統的新課題;胡開寶、尚文博(2022)認為,語言智能未來的發展在很大程度上取決于語言學研究的發展,并能對語言學研究產生推動作用;畢玉德、閆丹輝(2024)認為,通用人工智能時代的語言學研究應采取不同研究范式互相促進的思路,進一步推動對人類語言本質的認識;劉海濤(2024)分析了數智時代給語言研究者帶來的挑戰和未來趨勢。其他如,張丹丹、薛錦(2023)討論了人工智能時代語言科學跨學科交叉與融合;官群(2019)則聚焦于“具身”這一人工智能的核心概念,闡述了具身語言學的大致框架。
第二個方向是語言智能學科自身的提出和建構。比如姜孟(2024)指出,語言人工智能研究已經走過了思想烏托邦(前機器翻譯)、泛機械(機器翻譯)、語言學主導的符號主義(計算語言學)、計算機科學主導的連接主義(自然語言處理)4個歷史方位,正在迎來第五個嶄新的歷史方位——“智能科學主導的機制主義”,新近提出的“語言智能”概念是這一歷史方位恰當的代名詞,而“語言智能科學”的建構亟須加強;李佐文、梁國杰(2022)認為語言智能學科的研究內容可以分為基礎理論研究、關鍵技術研究和應用創新研究3個層次,語言、認知和計算是語言智能的三大要素。
第三個方向是基于語言智能的交叉性研究方向。比如語言資源學(李宇明,等2022)、語言空間智能(吳建華,等2024)、數字語言學(王荔,王春輝 2024)、知識翻譯技術學(戴光榮,黃棟樑2024)等。
2.學術體系積累豐富
(1)學術機構。較早的研究機構可以追溯到20世紀80年代,清華大學自然語言處理與社會人文計算實驗室、北京大學計算語言學研究所、南京大學自然語言處理研究組、復旦大學自然語言處理實驗室等相繼成立。2000年,哈爾濱工業大學社會計算與信息檢索研究中心成立;2008年,武漢大學語言和認知計算實驗室建立。①
2013年,北京市語委批準首都師范大學成立“北京語言智能協同研究院”,在此基礎上,2016年國家語委批準依托首都師范大學成立了“中國語言智能研究中心”,聚焦語言智能理論、技術、產品、應用研究。同年,教育部批準首都師范大學中國語言智能研究中心自設語言智能學科,開啟了我國語言智能博士研究生的培養。
2019年是中國語言智能研究的重要年份,好幾個機構在這一年相繼成立。5月29日,上海交通大學蘇州人工智能研究院與外國語學院“語言智能聯合研究中心”揭牌;6月15日,北京語言大學語言智能研究院成立;12月11日,上海交通大學外國語學院聯合達觀數據、浦軟孵化器等機構,聯合成立了“人工智能與語言研究中心”;12月26日,北京外國語大學人工智能與人類語言重點實驗室成立。
2020年12月19日,上海外國語大學數字人文與語言智能實驗室成立;2023年11月2日,廣東外語外貿大學語言智能研究中心揭牌成立。
(2)學術活動。2014年開始,由中國人工智能學會和中國語言智能研究中心聯合舉辦的“中國語言智能大會召開”,至2024年已舉辦了7屆;2016年,中國中文信息學會和中國計算機學會聯合主辦了首屆“語言與智能高峰論壇”,至2024年已經連續舉辦了9屆;2018年和2019年,北京語言大學語言資源高精尖創新中心和中國中文信息學會社會媒體處理專委會聯合主辦了兩屆“‘語言智能與社會發展’論壇”,第一屆的主題是“語言智能與外語教育的未來”①,第二屆的主題是“智能寫作的社會影響及其倫理、法律問題”②并發布了《推進智能寫作健康發展宣言》③;2019年10月第三屆中國北京國際語言文化博覽會期間,舉辦了“語言智能與語言多樣性”國際語言文化論壇①;2020年12月,中國語言智能研發暨語言文化教育傳播高峰論壇在京舉辦;2023年,上海外國語大學語言科學研究院開始主辦“語言科學與多語智能應用論壇”,2025年5月將舉辦第二屆;2024年10月17日,《語言戰略研究》與《當代語言學》兩家期刊編輯部就“辛頓·喬姆斯基·語言學發展”這一熱門話題,在商務印書館共同主辦了“大語言模型與語言學發展座談會”;2025年4月舉辦的“《語言文字應用》青年學者論學”第5期的主題就是“語言智能與技術的發展、應用及使命”。
(3)叢書和期刊。北外人工智能與人類語言重點實驗室于2021年出版《語言智能教學》(JournalofChina Computer-Assisted Language Learning)英文國際期刊,2024年推出《語言與智能》中文期刊和“人工智能與人類語言系列叢書”第一輯的5本。首都師范大學中國語言智能研究中心于2023年創刊了《語言智能研究》輯刊。尤其值得一提的是《ChatGPT來了:語言科學如何看待ChatGPT》(上海教育出版社,2024)這一論文集,匯集了國內外知名語言學家和Al專家的文章,深人探討了ChatGPT這一大型語言模型對語言學的影響和挑戰。
3.話語體系已成規模
(1)對于“語言智能”本身的認知。隨著語言智能的發展,語言逐漸為人和機器兩個“物種”所擁有(李宇明2020b),語言智能就是在符號語言基礎上產生的智能,包括人類的語言智能和計算機的語言智能,顯然這兩種智能都以語言為基礎(蔡曙山2024),當今人類對智能和意識的探究,體現為人類智能與人工智能的雙向互動(江怡,董化文2023)。周建設(2017)認為語言智能是語言信息的智能化,指運用計算機信息技術模仿人類的智能來分析和處理人類語言的過程;饒高琦(2023)指出作為術語,“語言智能”與“自然語言處理”“計算語言學”等高度關聯,并且在發展過程中深度融合,這3個術語現今常被視作近義詞,在很多語境中可以互相替代。
(2)課題和專題。2005—2014年五大科研基金的2414項語言應用類課題中,計算機應用類課題共有728項(占 30% ),包括處理語言問題的技術、手段、標準、規范、語料庫、資源庫等,以及用計算語言學的方法、手段研究各種語言問題(蘇新春,陳文革2016)。2017年,人工智能首次被寫入政府工作報告,在當年的四大科研基金中“計算語言學及新學科”就以106項在應用研究方向拔得了頭籌(田靜,蘇新春2018);2024年,國家社會科學基金語言學立項名單里,人工智能與語言學結合的研究有7個立項,成為當年的研究熱點。①
就研究專題來說②,《語言戰略研究》的刊文情形應該大致反映了這些年的趨勢,也彰顯了該刊對于此領域的極大重視。該刊在2016年創刊年的第6期就刊發了“語言信息化”研究專題并推出了“語言與智能技術多人談”,2018年第4期又推出“語言技術”研究專題;2018年第5期的卷首語是《人工智能領域:得語言者得天下》,2020年第5期和第6期的卷首語分別是《語言大數據迷思》和《用AI技術研究自然口語,可以提上日程了》;2022年第2期的“跨界談”則聚焦“元宇宙”。隨著ChatGPT在2022年底的推出,2023年也進人了語言智能研究的新階段。該刊在2023年第2期即刊發了《從圖靈測試到ChatGPT——人機對話的里程碑及啟示》一文,這篇文章在很短的時間內下載量破萬,引用次數超過100,成為了一篇“現象級”的文獻;緊接著第4期又推出了“語言智能”研究專題;2024年第1期再次推出“語言智能”研究專題,第3期刊發了“數字時代的語言生活”和“融媒辭書”兩個研究專題;2024年第5期設置了“大語言模型”研究專題,第6期推出了“辛頓·喬姆斯基·語言學發展”多人談;2025年第1期卷首語《大語言模型的“語言”跟自然語言性質迥然不同》,并再次推出“大語言模型”研究專題。
此外,《中國語言生活狀況報告》從2018年開始,幾乎每年都會在領域篇中有專文討論當年度語言智能方面的新進展③;《中國語言政策研究報告(2020)》有“語言智能”2019年度的研究狀況報告;《中國語言服務發展報告(2020)》專章對“語言的智能測評”進行了報告;《中國語言政策研究報告(2024)》有“大語言模型”的研究綜述;《外語電化教學》2023年第2期刊發“語言智能與外語教育變革專欄”;《云南師范大學學報(對外漢語教學版)》2023年第3期刊發“ChatGPT與國際中文教育”研究專題;《中國外語》2023年第3期刊發了一組ChatGPT與外語教育的專題;《長江學術》2023年第4期刊發“ChatGPT專題研究”;《外國語言與文化》2023年第4期刊發了“ChatGPT時代的翻譯技術與教育”研究專題;《外國語文》2024年第4期刊發了“人工智能背景下的語言研究與人才培養”研究專題;《語言治理學刊》2024年第1輯刊發的“語言與新技術”研究專題也是聚焦語言智能;《外語學刊》則設置了“數字人文”研究專欄。
(3)主要研究領域。梳理451篇文獻,可以看到,語言智能研究主要涉及以下領域: ① 教育領域(包括外語教育、國際中文教育、中小學語文教育等,約占 45% ),很大比例的文獻關注如何利用生成式人工智能和大語言模型改造課堂教學、教師培養和教學改革; ② 語言智能與計算語言學(約占25% ),包括對大語言模型原理、語篇分析、自然語言處理技術以及語言智能相關理論和應用的探討;③ 翻譯與跨文化傳播(約占 15% ),主要涉及機器翻譯、譯后編輯、跨文化話語構建以及翻譯質量評估等方面的研究; ④ 語言治理與輿論監管(約占 7% ),關注生成式人工智能背景下的網絡話語治理、內容安全、倫理風險與監管策略等問題; ⑤ 數字化語言產業與文化傳播(約占 5% )包括語言數據資源建設、數字辭書、語言產業標準化及其與數字經濟融合的相關探討; ⑥ 理論與方法論(約占 3% ),主要是對語言智能、語言數據及相關技術研究的理論框架、方法論創新和范式的反思。
三、語言數據研究縱覽
(一)基本脈絡
李宇明(2020a)應該是數據被定義為第五大生產要素之后,首次聚焦語言數據的文章。此后的研究,搜索知網大致得到了36條文獻。目前來看,《語言戰略研究》2022年第4期刊發了“語言數據與數字經濟”研究專題,其他專題似乎較為少見?!吨贫冉洕鷮W研究》2022年第4期刊發“語言經濟學專欄”,其中有2篇涉及語言數據;《天津師范大學學報(社會科學版)》2024年第6期刊發《語言新質生產力的內涵、樣態和發展路徑(筆談)》,其中也有文章聚焦語言數據。其他研究則較為分散。
(二)對“語言數據”的認知
將數據定義為第五大生產要素本身,是一個重要創見。雖然外文文獻中“語言數據”出現已經幾十年了,但是從作為生產要素視角對語言數據的研究,應該是中國學者的創新。李宇明、王春輝(2022)進行了較為系統的闡釋,即在英文語境中,“語言數據”(linguistic data,language data)是近幾十年來使用較為頻繁的術語,但在中文語境里還是一個較新且較少使用的概念。語言數據是以語言符號體系為基礎構成的各種數據,內部可以細分為五大類:語言學科數據、話語數據、語言衍生數據、人工語言數據、語言代碼數據。語言數據在語言保護、語言教育、語言學研究和語言產品研發和語言信息處理四大領域發揮功能最為顯著。
(三)主要研究領域
李宇明(2020a)較早提出了語言數據是生產要素,語言數據應納人數字經濟視野的觀點;李宇明(2020b)指出,無論是從量上還是從質上看,語言數據都是最為重要的數據,因而也是重要的生產要素,包括語言數據產業在內的語言產業將成為數字經濟的一方支柱;姜國權、李一飛(2021)分析了語言數據對于“一帶一路”發展的效應①?!墩Z言戰略研究》2022第4期刊發的“語言數據與數字經濟”研究專題中,李宇明、王春輝(2022)“主持人語”詳細分析了語言數據的4種類型和發揮功能的4個領域;該專題4篇文章分別聚焦語言數據的安全、語言數據的經濟屬性、語言數據治理技術模式、歐洲的語言技術與語言保護等4個主題進行了闡釋,此外還有6篇千字文的“多人談”。之后的研究開始更加多樣化:聚焦生產環節探究語言數據生產要素功能的實現路徑(梁京濤 2022);作為生產要素的網絡語言與網絡語言產業(謝曉明,程潤峰2022);人機共生時代的語言數據在管理、流通、補缺、教育、崗位等各方面的問題(李宇明2023);從知識產權視角下來分析語言數據的產權問題(梁京濤,張振達2023);語言數據產業(毛現樁2023);研究語言數據作為生產要素參與生產的4種形式及其產權制度構建(李宇明,梁京濤2024);闡釋語言數據是信息時代的生產資料,也是國家的戰略儲備(劉建軍2024)。
(四)其他方面
學科發展方面,易綿竹(2021)從信息鏈的視角分析了語言數據科學的內涵外延及其相關應用域;胡開寶(2022)分析了語言數據科學與應用學科的界定、學科基礎和特征,重點闡述了該學科研究的主要領域和方法;北京語言大學設置了“語言資源學”博士點;數字語言學也有一部分涉及(王荔,王春輝2024)。2020年上海外國語大學語料庫研究院新設語言數據科學與應用學科, 2024 年第一屆碩士畢業生畢業。 ②2024 年秋季學期,上海外國語大學和上海交通大學都開始開設了“語言數據科學”微專業。 2020 年12月19日,上海外國語大學語言數據與智慧教育研究中心揭牌成立。
學術活動方面,從已有搜索來看,真正聚焦“語言數據”這一術語本身的學術活動并不多見,比如2023年11月10—12日,以“語言大數據與國際傳播研究:交叉、融合與發展”為主題的語言大數據與國際傳播學術論壇在山東大學召開。④再往前追溯,一些聚焦“語言資源”的活動可以看作成為生產要素之前的一些鋪墊。如:2014年首屆“中國語言資源國際學術研討會”召開,至2019年連續召開了6屆;2017年7月,“一帶一路”語言資源與智能國際學術研討會召開;2023年12月,泉州師范學院絲路語言文化研究中心舉辦了“語言資源與語言治理絲路語言文化學術研討會”;等等。
四、未來研究展望
(一)語言智能研究的未來
就語言智能的研究來說,以下4個方面可能是未來需要進一步加強的方向和領域。第一,數字化語言文字轉型與多模態生態構建。主要內容涉及:(1)推動語言文字的數字化、智能化轉型,構建動態更新、多領域覆蓋的數據庫,涵蓋傳統文本、網絡語言、社交媒體數據等;(2)結合文本、語音、圖像等多種模態信息,實現跨平臺、跨載體的語義整合與智能分析,構建完整的語言生態系統。第二,動態語言生活監測與個性化應用。核心方向包括:(1)利用大數據和智能算法對日常語言交流(包括線上和線下)的動態演變進行實時監測,捕捉語言生活中的新詞語、新語法和新型表達;(2)在教育、社交和公共服務等場景中,依據語言使用數據為個體和群體量身定制智能交互、個性化教學和精準傳播方案。第三,跨文化傳播、倫理治理與智能反饋機制。主要方向可以包括:(1)構建具有中國特色的話語體系,利用智能技術推動國際中文教育和中華文化傳播,增強國家文化軟實力,提升中國國際傳播力;(2)在生成式人工智能廣泛應用背景下,建立健全語言智能技術的倫理標準、隱私保護和安全監管機制,提升技術應用的可解釋性與透明度;(3)借助智能對話系統和用戶交互反饋,形成“數據一智能一反饋”閉環,不斷優化模型性能,同時促進語言生活中的新型表達和文化創新。第四,理論創新與多學科交叉支撐。主要內容可能涉及:(1)在不斷涌現的新數據、新場景和新問題中,構建更新、更完整的語言智能理論框架,揭示語言文字與語言生活之間的深層互動機制;(2)整合語言學、計算機科學、社會學、心理學、文化研究等多領域的理論與方法,形成跨學科的研究范式,為技術發展、應用落地和政策制定提供堅實理論支撐。
(二)語言數據研究的未來
就語言數據的研究來說,以下4個方面尤為值得關注:(1)語言數據類型與功能的精細化與擴展。
可以進一步細分和深化語言數據的五大類型(語言學科數據、話語數據、語言衍生數據、人工語言數據、語言代碼數據),探索每種類型在不同應用場景中的具體功能和價值;關注數據質量、數據量與數據結構之間的關系,構建多層次、多維度的語言數據評價與應用體系。(2)語言數據在數字經濟與戰略儲備中的作用。研究語言數據作為國家戰略資源和數字經濟支柱的理論機制與實踐路徑,探討如何通過數據治理、標準制定和產權制度建設,提升語言數據的經濟效益和戰略價值;探索語言數據產業鏈建設、數據市場機制以及數據交易模式,為語言產業轉型升級提供政策和技術支撐。(3)網絡語言與人機共生時代的挑戰與機遇。分析網絡語言作為生產要素在新媒體、社交平臺和互聯網產業中的應用,推動網絡語言產業化發展;研究在人工智能和人機共生時代中,如何利用語言數據優化智能模型、改進算法,解決數據流通、數據補缺與管理問題,實現技術與語言生活的雙向反饋。(4)跨文化傳播與國際交流中的語言數據應用。探討語言數據在“一帶一路”等國際合作中的作用,研究如何利用數據支撐跨文化交流、國際中文教育以及中文國際傳播,構建具有中國特色的話語體系;通過大數據分析揭示不同文化語境下的語言使用特點,促進中外文化的互學互鑒。(5)語言數據安全、治理與知識產權保護。重點關注語言數據的安全性、隱私保護和數據治理技術模式,構建健全的監管體系和倫理規范;從知識產權視角出發,研究語言數據的產權界定與制度構建,保護語言數據在生產、流通過程中的創新成果和商業利益。(6)新技術賦能下的語言數據應用創新。利用大數據、人工智能、區塊鏈等前沿技術,開發新的語言數據應用模式,如智能翻譯、文化傳承等;促進語言數據與其他產業(教育、文化、信息處理等)的跨領域融合,形成協同創新的新生態。
此外,尤其值得注意的是,相比人工智能領域語言學的邊緣角色,數據的收集和分析是語言學的傳統強項,所以語言數據研究有可能成為語言學研究的新錨點和新靶點。①
(三)交叉研究方向
除了上述各自的發展方向,鑒于二者之間的緊密關系,未來二者的交叉研究也值得關注。如:(1)數據驅動的智能語言處理,涉及利用大規模、結構化和非結構化的語言數據改進智能模型(如大語言模型、機器翻譯、語音識別等)的訓練和優化,探索數據質量、數據類型與模型性能之間的內在關系;研究如何通過數據挖掘和深度學習方法,自動捕捉語言使用中的語義、情感和語用信息,從而實現更精準的自然語言理解和生成。(2)語言數據治理與智能決策,包括建立基于語言數據的安全、隱私保護和倫理治理體系,為語言智能系統的透明性、可解釋性和公平性提供技術支撐;探討語言數據在數字經濟中的戰略作用,構建數據治理標準和產權保護機制,同時利用智能分析技術優化數據流通和管理流程。(3)智能化語言教學與文化傳播,可以利用語言數據分析和智能反饋機制,開發個性化、適應性強的語言教學系統和交互平臺,推動外語教育、國際中文教育及中小學語文教學的革新;探索如何利用語言智能技術在跨文化交流、國際傳播中構建具有中國特色的話語體系,推動中華文化的數字化傳播與國際影響力提升。(4)智能反饋與產業應用閉環,可以探討“數據一智能—反饋”的循環機制,通過用戶交互和實際應用場景,不斷迭代和優化語言智能系統,同時推動語言數據在產品研發、商業應用中的高效轉化;研究如何在智能客服、內容生成、翻譯服務等產業領域中,通過實時數據反饋機制實現技術與市場需求的精準對接。
2022年11月30日,ChatGPT上線,引發了全世界對生成式人工智能的關注;時隔兩年,2024年
12月26日DeepSeek發布V3版本,接著2025年1月20日發布R1,再次引發了中國和全球的關注。地球已經進人“三人共生”的時代(王春輝2024),自然人類智能與人工智能開始融合進化,人機智能融合的地球正在構形。在此背景下,語言智能和語言數據在社會進化中的作用會越來越重要,對于它們的研究也必將越來越豐富。
下一個20年,有趣有盼,值得期待。
參考文獻
畢玉德,閆丹輝2024《通用人工智能時代關于語言研究的思考》,《語言文字應用》第3期。
蔡曙山2024《我言,故我在:兼論人類和計算機兩種語言智能》,《外國語文》第4期。
戴光榮,黃棟樑2024《知識翻譯技術學:體系框架初構》,《外語教學》第6期。
戴紅亮2013《港澳臺人口普查中的語言數據分析》,《語言文字應用》第2期。
馮志偉2018《人工智能領域:得語言者得天下》,《語言戰略研究》第5期。
官群2019《具身語言學:人工智能時代的語言科學》,北京:科學出版社。
胡開寶2022《語言數據科學與應用學科:特征、領域與方法》,《外語界》第3期。
胡開寶,尚文博2022《語言學與語言智能》,《華東師范大學學報(哲學社會科學版)》第2期。
胡泳,劉純懿2024《大語言模型“數據為王”:訓練數據的價值、迷思與數字傳播的未來挑戰》,《西北師大學報(社會科學版)》第3期。
黃海瑛2018《云環境下的“一帶一路”語言數據版權風險》,《圖書館論壇》第7期。
江怡,董化文2023《論人工智能與人類智能的雙向互動》,《自然辯證法通訊》第11期。
姜國權,李一飛2021《語言數據迎接“一帶一路”發展新挑戰》,《語言文字報》10月13日第2版。
姜孟2024《語言智能:語言人工智能研究的歷史新方位——“語言智能科學”理論與方法論構建(三)》,《外國語文》第4期。
杰斯·海恩斯坦,勒內·克孜爾切克,多米尼克·迪弗朗佐,等2023《交際中人工智能對語言和社會關系的影響》,《智能社會研究》第4期。
李宇明2020a《語言數據是信息時代的生產要素》,《光明日報》7月4日第12版。
李宇明2020b《數據時代與語言產業》,《山東師范大學學報(社會科學版)》第5期。
李宇明2023《人機共生時代的語言數據問題》,《華中師范大學學報(人文社會科學版)》第5期。
李宇明,梁京濤2024《語言數據的生產要素功能與產權制度構建》,《語言教學與研究》第2期。
李宇明,施春宏,曹文,等2022《“語言資源學理論與學科建設”大家談》,《語言教學與研究》第2期。
李宇明,王春輝2022《從數據到語言數據》,《語言戰略研究》第4期。
李佐文,梁國杰2022《語言智能學科的內涵與建設路徑》,《外語電話教學》第5期。
李佐文,任佳偉2023《語言智能導論》,北京:外語教學與研究出版社。
梁京濤2022《語言數據生產要素功能的實現路徑芻議》,《制度經濟學研究》第4輯。
梁京濤,張振達2023《知識產權視角下的語言數據產權問題研究》,《制度經濟學研究》第4輯。
劉海濤2024《從語言數據到語言智能——數智時代對語言研究者的挑戰》,《中國外語》第5期。
劉海濤,林燕妮2018《大數據時代語言研究的方法和趨向》,《新疆師范大學學報(哲學社會科學版)》第1期。
劉建軍2024《語言-數據:信息時代的生產資料論說》,《吉林大學社會科學學報》第1期。
劉偉,鄒陽洋,孫維一2024《跨越學科、領域、文化和文明的智能》,《科技導報》第 23期。
毛現樁2023《數字經濟背景下語言產業發展新模式:語言數據產業》,《北京城市學院學報》第2期。
饒高琦2023《主持人語大模型時代語言智能應注重科學基礎和社會應用》,《語言戰略研究》第4期。
沈潔2022《維特根斯坦和人工智能——從計算語言學的發展看維特根斯坦的影響》,《科學·經濟·社會》第3期。施建軍2020《現代人工智能視閾下語言學研究之管見》,《語料庫研究前沿》第0期。
蘇新春,陳文革2016《五大科研基金語言學課題十年》,《語言戰略研究》第3期。
孫茂松2022《機器語言能力和人工智能如何助力鄉村振興》,《語言科學》第5期。
田靜,蘇新春2018《2017年四大科研基金語言學課題立項情況調查》,《江西科技師范大學學報》第4期。
田阡子,孫宏開,江獲2007《漢藏語數據與東亞人類的淵源》,《西南民族大學學報(人文社科版)》第11期。
王春輝2024《自然人、機器人、數字人“三人”共生時代的語言生活》,《語言戰略研究》第3期。
王荔,王春輝2024《數字語言學的界定、特征和發展》,《江漢學術》第6期。
吳建華,魏寧,張勇生,等2024《語言空間智能:學科交叉創新的機遇與挑戰》,《武漢大學學報(信息科學版)》第6期。
謝曉明,程潤峰2022《網絡語言生產要素與網絡語言產業發展》,《制度經濟學研究》第4輯。
徐愚 2016《機器與語言——對人工智能語義問題的探尋》,中共中央黨校博士學位論文。
楊炳鈞 2024《人工智能時代語言研究中的倫理問題》,《外國語文》第6期。
易綿竹 2021 《信息鏈視域下語言數據科學與應用研究論綱》,《語料庫研究前沿》第1輯。
于非 2024《智能簡史:無盡的前沿》,北京:清華大學出版社。
詹衛東 2013 《大數據時代的漢語語言學研究》,《山西大學學報(哲學社會科學版)》第5期。
張伯江 2025 《數據治理助推中國生成式人工智能高質量發展》,《中國社會科學報》1月23日第1版。
張丹丹,薛錦2023《人工智能時代語言科學跨學科交叉與融合》,《外國語言文學》第2期。
周建設2017《語言智能研究漸成熱點》,《中國社會科學報》2月7日第3版。
朱夫斯凱,馬丁2018《自然語言處理綜論(第二版)》,馮志偉,孫樂,譯,北京:電子工業出版社。
Gardner,H.1983.FramesofMind:The Theory ofMultiple Intelligences.New York:Basic Books.
Slaughter,M.J.amp;D.H.McCormick.2O21.Dataispower: Washington neds tocraftnewrulesforthe digitalage.ForeignAffairs100(3). htts://www.foreignaffairs.com/articles/united-states/202-04-16/data-power-new-rules-digital-age.
責任編輯:王飆