



提 要 隨著ChatGPT 為代表的大語言模型在應用方面取得極大成功,語言官能是否為人類獨有的問題引起熱議,國際學界形成兩個對立的陣營。一方認為,大語言模型語言理解和產出方面達到了媲美人類的水準,對喬姆斯基的語言學理論提出了挑戰,甚至足以取代生成語法的語言學理論地位。另一方則認為,人類語言習得“刺激貧乏”但生成能力驚人,而大語言模型“學習”語言依靠輸入海量數據,因此,它無法對人類語言的本質問題給出合理性解釋,在語言的核心屬性方面與人類語言官能存在本質區別。不少實證測試也對夸大大語言模型在語言學理論中的地位的觀點進行了批判。本文認為,對這一問題的討論,首先應思考如下問題:(1)區分科學理論建構與工程應用;(2)對“可能的語言”與“不可能的語言”的區分做出原則性的預測與解釋;(3)探討自然語言習得“刺激貧乏”與大語言模型依靠“豪華型”海量數據之對立背后的深層原因;(4)對句法在人類語言和大語言模型中的地位進行更多維度和更系統的對比評測。
關鍵詞ChatGPT ;大語言模型;刺激貧乏;可能的語言;不可能的語言
中圖分類號H002 文獻標識碼A 文章編號2096-1014(2025)01-0075-12
DOI 10.19689/j.cnki.cn10-1361/h.20250107
一、引 言
計算機能思考嗎?這是圖靈的文章《計算機器與智能》(Turing 1950)的開篇之問。“圖靈之問”在人工智能和語言學等領域引發了長達半個多世紀的大討論,爭論的焦點是機器能否具備與人類相同的語言和思維能力,而其終極關懷則是:人工智能是否能具備與人類同等的心智?
半個多世紀以來,人工智能行業取得了突飛猛進的技術進步和商業成就,而“圖靈之問”卻始終未能取得具有共識性的回答。隨著2022 年11 月ChatGPT 的問世及迅速而廣泛的應用,學界對這一問題的爭論更趨激烈:這款由OpenAI 公司推出的聊天機器人盡管用戶界面極簡,但話語理解和產出功能卻超強,它能高精度地理解和回應用戶發送的指令,可以提供寫作、翻譯、問題解答、代碼編寫等多方面的幫助,且其工作速度之快,涉及內容之廣、之深,遠超人類一般水平,猶如一個無所不能的超能私人助理。這引起科學界的高度關注:《科學》(Science)雜志將“人工智能具備創造力”選為2022 年度“十大科學突破”之一a;《自然》(Nature)雜志評選2023 年度十大科學人物,ChatGPT 作為唯一的非人類形象赫然在列;2024年,諾貝爾物理學獎頒發給了人工神經網絡和機器學習領域的兩位專家約翰·霍普菲爾德(John Hopfi eld)和杰弗里·辛頓(Geoff rey Hinton)。
在這一背景之下,人們開始重新思考“圖靈之問”(Biever 2023 ;Mei et al. 2023 ;Gajic amp; Mandi?2023 ;等等),大家關心的議題主要集中在:以ChatGPT 為代表的大語言模型是否破譯了人類語言能力的奧秘?喬姆斯基關于語言官能人類獨屬等的理論假設是否因此被推翻了?實際上,圍繞著“圖靈之問”產生的關于“人”“機”語言知識和語言能力的類似探索、討論和爭辯并不自ChatGPT 始,國外如Feigenbaum amp; Feldman(1963),Winston(1970),Bobrow amp; Collins(1975),Chomsky(1975),Wilks(1976),Goldstein amp; Papert(1977); 國內如劉海濤(1997,2001,2008), 孫茂松、周建設(2016),杭慧喆(2016),林茂燦(2020),陳平(2021),荀恩東(2022)。但ChatGPT 的問世、辛頓獲得尤利西斯獎章和諾貝爾獎后對喬姆斯基語言學理論的直接批評(辛頓 2024),又在更多學科領域和更大范圍內激發了人們的討論熱情,也使得對喬姆斯基語言學理論的質疑聲浪明顯高漲。
本文是對國際學術界一些針鋒相對的觀點的評述。這些觀點總體上代表了兩個對立陣營的交鋒:一方認為,大語言模型已經具備了超越常人的語言能力,且這一語言能力的獲得并未借助任何語言學理論,這使得當代語言學理論的研究徹底失去了意義(Baroni 2022 ;Piantadosi 2023 ;等等);另一方則認為,大語言模型本質上仍是一個“模仿機器”,它雖然能很好地模仿人類說話,但其語言機制跟人類語言存在著根本性的不同,也無法對人類語言做出解釋,回答“語言為什么是這樣”的問題(Chomsky 2023a ;Chomsky et al. 2023 ;Murphy 2023 ;Bolhuis et al. 2024 ;等等)。以下首先重點評述論辯雙方的核心觀點和論辯依據,然后在此基礎上簡述本文作者的若干思考與建議。
二、兩個對立陣營的代表性觀點交鋒
(一)陣營一:Piantadosi(2023)等認為,ChatGPT 破解了人類語言能力的奧秘
隨著ChatGPT 的出現,有一個聲音得到了為數可觀的人群的應和:ChatGPT 和大語言模型已經具備了超越常人的語言能力,它破解了人類語言的奧秘。最具代表性的如Piantadosi(2023)、Everett(2023)、Kallens et al.(2023)、Warstadt amp; Bowman(2020)、Lampinen(2023)、Mahowald et al.(2023)等。這些觀點又可分為強式和弱式兩種:強式觀點主張大語言模型本身就可視為一種理論,足以取代生成語法的語言學理論地位;弱式觀點則從與生成語法理論相關的某一方面出發,對大語言模型的語言能力進行評估,從而支持大語言模型已具備與人類水平相近的語言能力的觀點。
1. 強式觀點:大語言模型足以取代生成語法的語言學理論地位(Piantadosi 2023;Everett 2023)
Piantadosi(2023)對大語言模型的語言能力給出了極高評價。他首先綜述了大語言模型所取得的突破性進展以及學界近幾年開展的評測,認為最新的大語言模型已經具備了產出從句、介詞短語、連詞的多重嵌套式結構等的能力,還能在句中正確使用代詞、限定詞、量詞等功能性語言成分,在形態一致性和代詞指代方面也很少犯錯誤。特別是大語言模型很好地解決了長距離依存這一自然語言處理領域的老大難問題——大語言模型不僅能夠處理單個句子內部的長距離依存,還能應對多個句子間的長距離依存情況。Piantadosi(2023)認為,從這些方面來看,大語言模型所表現出的語言運用能力與人類有著高度的一致性。
不僅如此,Piantadosi(2023)還進一步認為,GPT-3 等大語言模型所取得的進展對喬姆斯基的語言學理論和關于語言本質的主張帶來了挑戰,具體表現為兩個方面。第一,大語言模型并未在系統中內置任何語言習得機制,也未借助任何語言學理論,而是僅通過外部文本的大量輸入的訓練以及詞語預測的手段,便掌握了包括層級性、句法規則在內的語言加工能力;因此認為,語言可能并不是由生物屬性決定的,而是僅憑外部語言刺激便足以掌握。這與喬姆斯基關于自然語言的“刺激貧乏論”假說(Chomsky 1955/1975,1965,2010,2012a,等等)相矛盾。第二,大語言模型本身就可視為一種理論,其強大的文本預測能力能夠為我們探究心智運作機制提供可能的假設,具有科學意義上的貢獻。因此,在大語言模型的成功光芒之下,生成語法已經不再具有研究意義和價值,大語言模型足以取代生成語法的語言學理論地位。Piantadosi 將他這篇文章的題目定為《現代語言模型顛覆了喬姆斯基的語言觀》(Modern Language Models Refute Chomsky’s Approach to Language),該文可視為對喬姆斯基語言學理論的宣戰書。
Piantadosi(2023)很快得到Everett 這位喬姆斯基理論的長期反對者的積極回應。Everett(2023)稱Piantadosi(2023)是該領域近幾十年來的最重要的論文之一。特別是就ChatGPT 無需內置任何語法原則、僅僅依靠大數據便可掌握人類語言這一點,Everett 認為這是推翻喬姆斯基所秉持的“先天語法原則在語言習得過程中具有必要性”的有力證據。除此之外,針對Chomsky et al.(2023)所提到的ChatGPT 對于一些特定結構無法正確加工的情況(如“Bill was too stubborn to give the book to.”),Everett 認為這恰恰反映了ChatGPT 與人類語言發展之間的相似之處,因為ChatGPT 仍處于發展初期:這些錯誤在人類幼兒或者二語學習者身上也同樣可能發生。
2. 弱式觀點:大語言模型已具備與人類水平相近的語言能力(Kallens et al. 2023;Warstadt amp;Bowman 2020;Lampinen 2023;Mahowald et al. 2023)
主張大語言模型的成功表明其語言能力可與人類語言官能媲美的文章中,也有不少是在對具體事實考察的基礎上得出的結論,比之于缺少科學論證的強式觀,這一類型的研究更值得關注。其中一些研究以生成語法重點關注的某些論題為出發點,對大語言模型的語言能力進行了評估,涉及的方面有語言天賦假說、遞歸能力、層級屬性、語言能力、語言與思維的關系等。
關于“天賦論”。以喬姆斯基為代表的生成語法學派認為,“天賦”的語言初始狀態是人類習得和理解語言的第一決定要素(Chomsky 2005);而與其對立的統計學習理論則強調后天經驗和外部語言輸入的重要性。Kallens et al.(2023)以此對立為切入點,探究大語言模型所運用的統計學習策略能在多大程度上解釋人類語言的本質及其習得的過程。其結論是,大語言模型在無內置語法的情況下呈現出的類人的語法能力(主要論據是大語言模型產出的句子罕有語病),很好地證明了語法能力可通過語言環境的外部輸入獲得,而無需借助語言特異(language-specifi c)的計算或表征手段。Kallens 等據此對“語言天賦說”提出質疑,并認為,GPT-3 等大語言模型在語言能力上取得的成功,對整個認知科學的發展都有著重要的理論意義和啟示價值。
關于“層級結構”。Warstadt amp; Bowman(2020)也認為,大語言模型具有能夠自發地從原始數據中習得層級結構的傾向性。該研究對谷歌公司推出的大語言模型BERT 進行了測試,發現在需要依賴層級結構才能進行正確加工的4 種情形中,大語言模型能夠正確習得其中3 種(即:含關系子句結構的助動詞前置,反身代詞的約束,嵌套子句中的動詞時態分析),只有極性否定詞結構未能完全掌握;文中強調,即使在訓練語料中不包含任何直接相關例句的情況下,結論也同樣如此。作者因此認為,生成語法聲稱人類獲得語言的前提是必須有先天內置于人類心智中的語法原則,但大語言模型的測試結果則表明,機器語言學習至少有一部分是可以從外部數據中自發習得的,因此具備“能學性”(learnability)。
關于“遞歸能力”。Lampinen(2023)重點關注了大語言模型的語言遞歸能力和層級結構加工能力。生成語法理論認為,遞歸性作為語言的本質屬性之一,為語言創造性提供了基礎(見Chomsky1957 ;Hauser et al. 2002)。Lampinen(2023)嘗試通過論證大語言模型在遞歸結構的加工能力方面達到與人類相同的水準,來間接證明大語言模型的語言能力與人類的語言能力具有同一性。為此,作者以多層遞歸嵌套結構和不同單復數形態的名詞干擾項作為測試對象,要求大語言模型進行句子續接文本的選擇,檢驗大語言模型是否能夠對句子中特定位置動詞的單復數形態進行準確識別和加工(如圖1所示)。實驗結果表明,在給出足夠的示例和提示詞(prompt)后,大語言模型甚至能夠比人類被試更為準確地識別復雜句子結構中的一致關系,并以恰當的動詞形態完成這類句子的續接任務。其結論是,大語言模型已經能夠像人類一樣穩定、可靠地加工復雜遞歸嵌套結構;甚至可能需要適當削弱大語言模型的能力,才能更準確地模擬人類在加工此類復雜結構時的真實表現。
關于“形式能力”與“功能能力”。大語言模型“一本正經地胡說八道”的問題始終顯著存在,難以回避。英國《劍橋詞典》和美國《韋氏詞典》分別將hallucinate(產生幻覺)和authentic(真實的)選為2023 年度詞a,入選理由直指大語言模型編造事實的問題。這難免讓人懷疑:大語言模型的語言能力是否真如一些人所宣稱的那樣,可與人類語言官能相比?而生成語法學者則更關心這樣的問題:大語言模型在“語言能力”的本質上及語言運用上與人類官能到底有何相似與區別?正如生物學家可以追問:在飛行實踐上遠超飛鳥、時速可達數千千米的飛機與飛鳥之間在飛行這一官能方面是否相同,換言之,飛機的出現是否意味著鳥兒其實不需要內在的生物機制做基礎也可以飛翔?
對此,Mahowald et al.(2023)對“語言能力”的內涵進行了思考,將其區分為“形式能力”和“功能能力”:“形式能力”囊括了音系、形態、句法等語言內部的規則,這些都是傳統形式語言學關注的領域;而“功能能力”則涉及人類感知、認知和行為中運用到的形式推理、世界知識、情境建模、交流意圖等。作者認為,大語言模型之所以能輕而易舉地生成連貫、合語法的語言序列,是因為它已經很好地掌握了人類語言的核心規則,具備了出色的“形式能力”。但大語言模型的“功能能力”尚不成熟,也就是說,還無法在現實世界的場景中準確地理解和使用相應的語言。例如,在“Thetrophy did not fi t into the suitcase because it is too small”(獎杯沒能裝進行李箱里,因為它太小了)這句話中,代詞it 指代的對象并不能從句法計算中直接推導出來,而是需要依賴外部世界知識來輔助語義上的解讀。作者認為,語言模型對于這類問題的處理能力明顯不足,其背后反映的并不是語言能力本身,而是人類的思維能力。因此至少對于大語言模型來說,語言和思維應該分而治之。
(二)陣營二:Chomsky et al.(2023)、Bolhuis et al.(2024)等認為,ChatGPT 與人類的語言能力不可同日而語
對于ChatGPT 具備人類語言能力這一觀點持否定和懷疑態度的一方,其論證路徑和關注重點可分為宏觀評述和實證評測兩類:前者從宏觀層面對Piantadosi(2023)等為代表的觀點進行了回應,焦點是對ChatGPT 語言能力本質的定性;后者則聚焦某一具體問題,通過實證測試來評估大語言模型與人類語言能力之間的區別。
1. 宏觀評述:大語言模型是“一種高科技形態的剽竊”(Chomsky et al. 2023;Rawski amp; Baumont2023 ;Murphy 2023 ;Bolhuis et al. 2024)
首先引起廣泛關注的是喬姆斯基本人的回應。在ChatGPT 推出1 個多月后,喬姆斯基接受采訪表達了自己對ChatGPT 的看法:盡管ChatGPT 能夠做到準確預測一串文字序列中的下一個字符,產出非常接近人類所表達的語言,但它所使用的“暴力”(brute-force)a 手段從本質上講是一種“高科技形態的剽竊”;“對于理解與語言或認知相關的任何方面,這些系統都是完全沒有價值的”(Chomsky"2023a)。原因在于,ChatGPT 這樣的程序依靠掃描海量數據和尋找統計規律來預測下一個可能出現的詞,這一過程顯然稱不上是一種“理論”,也根本無法捕捉到語言復雜性表象背后的本質屬性。
隨后,喬姆斯基等人又在《紐約時報》上發表題為《ChatGPT 的虛假承諾》(The False Promise ofChatGPT)的文章,認為“ChatGPT 在推理和語言使用上和人類有巨大差別”(Chomsky et al. 2023)。文章特別強調,ChatGPT 這樣的程序無法具有像人類那樣對“可能”與“不可能”的語言進行區分的能力。對于ChatGPT 來說,它可以無限制地學習任何內容:符合語言普遍性規律、能夠被人類所掌握的“可能的語言”,和不符合語言普遍性規律、無法被人類掌握的“不可能的語言”,它都會一視同仁、不加區別地接受和吸收。因此,盡管ChatGPT 運用統計手段取得了工程應用領域的成功,對于以探索語言本質為己任的理論語言學來說,這其實說明不了什么,因為它并沒有解決真正的科學問題,比如它無法回答“語言為什么是這樣而不是那樣”的問題(Chomsky et al. 2023)。至于那些聲稱大語言模型顛覆了生成語法理論的觀點,喬姆斯基在另外一次采訪中表示,這些看法就好比僅僅因為商業航空公司在導航問題上取得了更好的結果,就告訴昆蟲科學家他關于昆蟲導航的工作被全部推翻了一樣荒謬;大語言模型不能告訴我們關于語言、學習或認知本質方面的任何信息,因此,試圖從這類工程中探尋語言本質的想法從一開始就注定是徒勞無功的(Chomsky 2023b)。
值得注意的是,喬姆斯基對人工智能的這一洞見早在幾十年前便已經形成。在人工智能領域尚未取得長足進展之時,喬姆斯基便對基于統計和概率對語言進行建模的路徑提出過深刻洞見:“語法是自主的,獨立于語義;概率模型并不能為透徹了解句法結構的一些基本問題發揮特殊的作用。”(Chomsky 1957)他曾多次提醒,計算機科學依靠大量數據和統計分析得出的近似語言的表達只是對人類行為的模擬,并不能幫助我們真正理解語言的本質;我們有必要對“模擬”和“理解”加以明確區分,否則就容易陷入語言假象的危險境地中(Chomsky 2012b ;Chomsky amp; Moro 2022)。
Rawski amp; Baumont(2023)、Murphy(2023)、Kodner et al.(2023)等也對Piantadosi(2023)做出了回應和反駁。其中Rawski amp; Baumont(2023)以《現代語言模型什么也沒有顛覆》(Modern LanguageModels Refute Nothing)為題直接回擊Piantadosi(2023),并運用命題邏輯推理指出該文在論證過程中存在的邏輯謬誤和論據不充足。作者指出不應該混淆相關性與因果性:盡管大語言模型能夠模仿或者預測人類語言行為,但并不能因此推導出大語言模型本質上具備與人類相同的語言能力的結論,也無法推論這類模型可以視作解釋人類語言的理論模型。Murphy(2023)也在博客上發表了類似看法,他指出,Piantadosi(2023)《現代語言模型顛覆了喬姆斯基的語言觀》一文在題目上便犯下了范疇錯誤(category error):因為現代語言模型和喬姆斯基的語言觀是不同層面的兩個范疇,前者屬于工程工具,后者則是一種研究計劃,兩者之間不存在直接的競爭關系。正如反過來,我們也從來不會去說“喬姆斯基的語言觀顛覆了現代語言模型”一樣。此外,Kodner et al.(2023)也從對大數據的“沒有節制的”學習、單純模仿、缺少解釋性等方面對Piantadosi(2023)的觀點進行了批駁。
作為喬姆斯基語言學理論的支持者,Moro 和Bolhuis 等也發文(如Moro et al. 2023 ;Bolhuis et al.2024)認為,說人工智能并不具有人類語言的能力,有3 個理由。其一,人類語言是生成性的,而大語言模型為代表的人工智能的語言使用是基于統計的。其二,人類嬰兒學習語言的決定因素不是數據的輸入,相反,基于“貧乏”的數據刺激卻能生成無限的句子;而大語言模型所依賴的則是海量大數據,這一點與人類兒童語言習得相反。其三,人類語言官能決定了人可以區分“可能的語言”和“不可能的語言”;而大語言模型則會產出“不可能的”語言,并且不能分辨“可能的語言”與“不可能的語言”。
值得注意的是,Collins(2024)盡管在一些方法論上與生成語法觀點并不完全一致,但在關于大語言模型與語言學理論之間的關系上則與Chomsky et al.(2023)意見一致。比如認為大語言模型本身并不是科學理論,它無法回答關于語言的各種“為什么”的問題,其輸出表現也完全任意,根本無法成為語言學理論的替代品。
2. 實證研究:大語言模型與人類語言能力之間存在重大區別(Katzir 2023 ;Zhang et al. 2023;Dentella et al. 2023a,2023b)
Katzir(2023)以《為什么大語言模型不能成為人類語言認知的理論》(Why Large Language ModelsAre Poor Theories of Human Linguistic Cognition)為題對Piantadosi(2023)進行了批判性回應,認為其對大語言模型語言能力的評述有些言過其實。Katzir(2023)指出,Piantadosi(2023)的論證缺少扎實的事實基礎,那些所謂大語言模型已經熟練掌握的方面,例如對于“大語言模型很好地處理了長距離依存,準確把握了語言層級結構的特點”的說法,只需一些簡單的手段便能將其打回原形:如果讓ChatGPT 執行詞語預測選擇任務,比起符合語法但語義可能性較低的選項,ChatGPT 更傾向于續接一個語義可能性更高但卻不符合語法的選項(如圖2 所示)。
由此看來,大語言模型盡管已取得不錯的長距離依存處理能力,但仍缺乏足夠的穩定性,無法像人類那樣可以輕易地將可能的語義干擾排除在外。Katzir(2023)認為,Piantadosi(2023)對大語言模型的語言能力進行的評估缺乏系統全面的考察,僅提及與人類表現更為接近的那些方面,而忽視和掩蓋了其差距和不足,包括:(1)大語言模型對語言限制條件(如孤島效應)的加工存在缺陷,(2)大語言模型對人類語言共性不具備天然的傾向性,(3)大語言模型對語言能力和語言運用不能加以區分,等等。這些差距使得當前大語言模型的表現仍然像是“隨機鸚鵡”,無助于加深對人類語言機制的理解,也注定不能成為人類語言的解釋性理論。
同樣從實證角度對Piantadosi(2023)進行批判性研究的還有Dentella et al.(2023a),該研究從8 種語言現象著手,對包括GPT-3 在內的3 種大語言模型進行了語法正誤判斷的測試實驗,結果發現大語言模型雖然對合語法的語料進行判斷時表現良好,但對不合語法的語料則判斷力不佳;同時還表現出顯著的不穩定性,以及具有持肯定回答的傾向性。這些表現與人類的語言施為相差很遠,說明大語言模型可以成為人類語言理論的說法缺乏足夠的證據支持。Dentella(2024)與陳旭、司富珍(2024)、李富強、康興(2024)運用了相似的測試方法,即就一系列低頻結構對不同類型的大語言模型進行測試,得出的結論都是:盡管當前的大語言模型具有很高的實用性,但仍難稱其具備人類一樣的語言能力。值得關注實證研究還有Massaro amp; Samo(2023)在句法制圖理論背景下關于左緣結構成分的研究。該研究考察了ChatGPT 處理意大利語及其方言中的左緣結構成分的能力,結果顯示,大語言模型對句法操作中的重新排序存在某種偏向性,而在處理共指性問題上也存在困難,在處理不同語言時表現也不同。
同樣是以大語言模型為研究對象,為何不同的學者給出的評價相去甚遠,不同的實驗呈現出的結論截然不同?有學者對這一現象的背后原因進行了剖析。例如Zhang et al.(2023)指出,一個可能的原因在于有許多實驗研究考察的問題較為膚淺、沒有抓住問題的核心,導致出現“天花板效應”,無法探究和體現出大語言模型與人類語言能力的真正差距。而只要對這些實驗加以巧妙設計,增加語料的復雜度,大語言模型的一些不足之處便會暴露無遺。而經典的生成語法文獻可以為此提供更多切入思路。例如,Chomsky(1965)提出5 種不同句法復雜程度的構式,其中多分枝式(multiple-branchingconstruction) 最為簡單, 嵌套式(nested construction) 和自嵌式(self-embedded construction) 則會增加結構的復雜性。在此理論基礎上,Dentella et al.(2023b)選取并設計了7 種不同復雜度的句式對GPT-3 進行了測試,分別是多分枝式、嵌套式、自嵌套式、比較級錯覺(comparative illusion)、同一成分回避原則的違反(identity avoidance violation)、一致關系吸引(agreement attraction)和語義反常(semantic anomaly),通過對話的形式要求GPT-3 對上述類型的句式進行合語法性判斷,并對不合語法的句子做出修正。結果顯示,GPT-3 只在“一致關系吸引”這一種場景下能夠做出正確回應,例如對于“The key to the drawers are on the table.”(抽屜的鑰匙在桌子上。)能夠準確判斷其語法錯誤,并給出“The key to the drawers is on the table.”和“The keys to the drawers are on the table.”兩種修改版本;而對其余6 種更為復雜的結構類型,GPT-3 給出的回答則要么答非所問,要么一知半解,要么自相矛盾。Biever(2023)也認為,許多大語言模型都能在測試基準中表現良好,這并不能說明它們超越了人類這些方面的能力,而是因為這些測試基準本身具有局限性。可見,在考察評估大語言模型的語言能力時,還需要更加謹慎、全面地進行語料選取和實驗設計,才能使結論更為客觀、準確,具備說服力。
三、關于大語言模型語言能力的幾點思考
回到文章開頭提及的“圖靈之問”上來,大語言模型能否被視作人類語言習得的模型? ChatGPT和大語言模型的成功對于語言學理論的意義何在?能否推翻和取代現有理論語言學理論模型?目前并不能得出顛覆當今主流語言學理論關于人類語言本質的核心假設的結論,正反雙方的辯論都需要更多更新證據的支持。相信隨著人工智能領域對于大語言模型(或更高形態的語言模型)的進一步開發,以及語言學相關領域對人類語言本質認識的進一步深入,雙方還將碰撞出更多思想火花。就現階段而言,若要真正將大語言模型服務于對自然語言和人類認知本質的探究,大語言模型的建構者和研究者至少還應該思考以下幾個方面的問題。
(一)科學理論與工程應用的區分
喬姆斯基主張要明確區分“科學”(science)和“工程”(engineering)這對概念(Chomsky 2022):科學指涉對事物自然現象的思考和理解,探索為何事物是以這樣的而不是別的方式存在,旨在對現實世界中的各種現象做出解釋;而工程則是應用我們從科學中得到的知識來解決實際問題。ChatGPT的成功,標志的是工程領域的成功,而非科學理論建構的成功。對于這個問題,喬姆斯基在十幾年前就統計模型發表的看法至今仍具有啟示意義——“在科學史上,似乎從沒有人這樣界定‘成功’,也就是把‘成功’解釋為對未經分析的數據的擬合”(Chomsky 2011)。其中的兩個關鍵詞“擬合”(approximate)和“未經分析”(unanalyzed)道出了大語言模型無法取代語言學理論的關鍵:“擬合”意味著大語言模型與人類語言能力不具有同一性,“未經分析”則暗示大語言模型不是解釋性的理論。如果一個關于語言的系統無法對語言知識的基本方面做出刻畫,不能對語言的深入理解做出合理解釋、不能回答“為什么”的問題,那么就根本稱不上科學理論。這樣的道理我們并不陌生,計算器早在幾十年前便可以代替人類的數學算式,機器的數學運算水平早已超越人類(至少在數學施為的層面上),但從不會有人說數學理論被計算器的發明所顛覆。
與此番景象形成鮮明對比的是,喬姆斯基所倡導的生成語法自誕生之初便以構建語言科學理論體系為愿景,而最簡方案以來的理論模型更是指向了一個更高的境界——“超越解釋的充分性”,就是不僅要對語言習得和語言本質的問題做出“是什么”的回答,還要進一步追問“為什么”的問題(司富珍 2008)。伴隨著生成語法理論發展起來的生物語言學事業,更是從定義屬性上關注人類語言的生物本質,力圖回答的問題包括:語言表現型(phylogeny)的屬性是什么?個體的語言能力是如何發展和成熟的?語言是如何被使用的?語言是如何在大腦中實現的?是什么進化過程引發了人類語言的產生?(Chomsky 1965,1976 ;Sciullo amp; Jenkins 2016 ;Moro 2016)而這些問題,無一例外地都在大語言模型所關切的問題范圍之外。
一言以蔽之,大語言模型的成功是工程應用的成功,而非科學理論的成功。其強項是依靠觀察分析海量語言數據,迅速做出判斷和實施語言行為,較好地預測和模仿在給定的上下文中可能出現的詞語。但這種模仿行為雖然高效,卻無助于解釋語言現象和語言本質;而透過語言現象對語言本質提供解釋,則是包括生成語法理論在內的現代語言科學理論的核心。
(二)“可能的語言”與“不可能的語言”的區分
大語言模型和人類語言能力的另外一個重要區別,在于是否能夠辨識“可能的語言”和“不可能的語言”(Moro 2016)。大語言模型由于沒有任何內置的具體語言規則,其計算能力過于強大,在面對違反語言規則的語言數據,包括那些非層級性的“扁平”結構時,也依然會像對待人類語言一樣進行操作。換言之,無論是可能的語言還是不可能的語言,大語言模型都會不加區分地照單全收(見Mitchell amp; Bowers 2020 ;Chomsky 2022 ;Moro et al. 2023)。
從科學方法論的角度看,一個不能對“可能的”和“不可能的”加以區分的系統,其科學價值必然大打折扣。因為理論的建構和評價標準之一是看被評價的理論對現象和事實的預測能力。一個具有預測力的科學理論首先應該能夠預測和分辨哪些是“可能的”事實,哪些是“不可能的”事實。一個經典的正面例子是,在化學領域,元素周期表不單單對現實世界中的化學元素做出系統性的描繪,還精準地區分了可能的(尚未在現實世界中發現,但可以通過元素周期表推斷出來的)化學元素和不可能的(無法通過元素周期表推斷出來的)化學元素。大語言模型顯然還遠未達到這樣的理論水準。就現狀而言,大語言模型既不足以刻畫一種語言中所有可能存在的正確句子,也無法將不可能的句子全部排除在外(Aboufoul 2022 ;Bolhuis et al. 2024)。
人類語言加工機制與大語言模型有著本質的不同,它能夠對可能的語言和不可能的語言做出顯著的區分反應。這一點已經得到了若干實驗研究的支持。例如,Moro et al.(2001)、Tettamanti etal.(2002)和Musso et al.(2003)等利用fMRI 等技術開展的腦生理實驗表明,在習得一種自然語言中的可能規則(具有遞歸和層級性的結構規則)時,被試布洛卡區(句法加工區域)的激活程度會相應得到提升;而相同被試在習得一種人工設計的不可能的語言規則(例如在實驗設計中始終將否定句的否定詞“no”安排為句子線性序列的第4 個單詞,或者始終讓句子的第一個冠詞與線性序列中最后一個名詞保持一致關系。這些都是使用了線性規則而非人類語言中普遍存在的層級結構的“不可能的”人類語言結構規則)時,布洛卡區則不會出現顯著的激活。
結論是,大語言模型無法像人腦一樣區別“可能的結構”和“不可能的結構”“可能的語言”和“不可能的語言”,也就無法對人類語言為什么是“這樣”而不是“那樣”的問題給出深刻的洞察和合理的回答,因此二者具有本質的不同。
(三)刺激貧乏與語言先天性
關于人類語言與大語言模型存在本質差別的另外一個關鍵證據是人類語言的“刺激貧乏”及大語言模型的海量數據刺激之間的對比(如Warstadt amp; Bowman 2022)。
人類兒童在“刺激貧乏”的情況下卻能迅速且步調一致地習得母語,這一“伽利略謎題”長期以來一直深受關注,并催生出了“語言天賦假說”(Chomsky 2017 ;司富珍 2024)。有研究以美國兒童為例表明,孩子從出生成長至兩歲時,約能聽到1000 萬~ 3000 萬個單詞(Hart amp; Risley 1995);圖3 顯示了10 歲兒童與大語言模型語言輸入量之懸殊。而GPT-3.5 則使用了高達570GB 的文本作為訓練數據,約合1140 億個單詞(Chemero 2023),這也是這類技術被稱為“大”語言模型的根本原因。粗略換算下來,ChatGPT 比兩歲兒童多接觸了5000 倍的外部單詞輸入,才獲得如今水平的語言能力。這一天文數字級別的輸入量堪稱“豪華”,與兒童語言習得的“貧乏”形成鮮明對比。即便將ChatGPT 同時掌握數十種語言的情況考慮在內,這一問題仍然不可忽視地存在。大語言模型行業內部也注意到了這一問題,因此已經有研究人員開始嘗試以13 周歲兒童級別的語言輸入量(約合1 億單詞)作為訓練大語言模型的輸入文本(如BabyLM Challengea),來探究在相近的語言接觸之下能否涌現出相當水平的語言能力。不過,這項研究至今尚未取得理想的結果。
可見,Piantadosi(2023)等人的立論忽略了如下重要事實:大語言模型需要大量輸入才能勉強接近人類的語言表現,而人類兒童在與外界非常有限的、個體化的接觸中卻可以創造性地產出和理解從未聽到過的句子。因此,大語言模型取得的成功,至多只能說明大語言模型自身沒有內置語言知識(而這一點也仍存疑點和爭議),絕不能直接推導出它可以代表人類語言的機制。
(四)句法在人類語言中的中心地位
在主流的生成語法理論體系里,語言被定義為“由生物決定的能夠無限地產出具有層級結構的表達序列的計算認知機制”(Chomsky 2015 ;Friederici et al. 2017)。在生成語法理論看來,語法具有自主性,獨立于語義(Chomsky 1957),句法計算系統構成了整個語言系統的基礎(司富珍 2008)。
而就大語言模型的句法能力而言,盡管有學者認為大語言模型已經能夠很好地完成與長距離依存相關的語言任務(如Wilcox et al. 2022),但實際上通過一些簡單的測試手段便足以推翻這一結論,例如上文提到Katzir(2023)發現,大語言模型傾向于選用are 而非destroys 來續寫“The little duck thatsaw the horses with the blue spots yesterday ...”(昨天看見藍色斑點馬的小鴨子……)這句話,顯然在做選擇判斷時將語義因素置于句法因素之前,渾然不顧duck 與are 在句法一致性上存在的問題。又如,圖4 是本文作者在中文語境下對GPT-4 進行測試的結果(不同時間、數次獨立測試均給出了同質的結果),同樣暴露出大語言模型的逐詞預測工作原理往往傾向于將語義上的可能性擺在更加優先的位置:
以上證據顯示,基于概率統計模式的大語言模型并不具備句法自足性,在大語言模型“生成”語言的過程中,句法并不占據絕對的主導地位。而句法在人類語言中的中心地位卻是與生俱來的。有證據表明,兒童在習得語言的過程中很少發生違反結構依存原則的錯誤(Chomsky 2013 ;Sciullo amp;Jenkins 2016)。喬姆斯基(Chomsky 2022)指出,“嬰兒明明聽到的是線性順序,但卻將其盡數忽略,而只關注他從未聽到的那些由大腦所構建的抽象結構。”也就是說,人類大腦先天地具備層級結構的加工能力和優勢。而同樣暴露于線性語言序列中的大語言模型(且不論數量級的差距),則長期以來一直苦于尋求處理層級結構和長距離依存的最優解。由此看來,那些試圖將ChatGPT 類比為語言能力尚未發育完全的兒童的看法(如Everett 2023 ;Lake amp; Baroni 2023),顯然忽視了ChatGPT 與人類兒童的這一顯著區別。Piantadosi(2023)所代表的一方顯然未將這些重要因素考慮在內,就得出了大語言模型具備了與人類相當的語言能力這一結論,在此基礎之上所做出的更進一步的判斷和推論也就更需謹慎看待了。
四、結 語
對比了圍繞大語言模型和人類語言本質展開爭鳴的兩個對立陣營的代表性觀點后,我們認為,Piantadosi(2023)等將大語言模型上升為科學理論高度的看法存在理論與方法兩方面的問題,難以自圓其說。在將大語言模型與人類語言官能進行對比研究時,我們首先需要思考“比什么”和“怎么比”的問題。例如,是否能夠分辨和預測“可能的結構”和“不可能的結構”,是否能夠對“孤島效應”等做出同樣的操作反應,在左緣結構語用信息句法化的計算方面(司富珍2023)是否有一致的表現,是否有能力在“貧乏刺激”和“手段”有限的情況下“生成”無限的表達,等等。以目前呈現的證據來看,盡管已有大量研究表明大語言模型可以依賴于海量文本數據的輸入,在沒有嵌入直接的語法規則的情況下掌握良好的語言運用能力;但囿于不同的工作機制,大語言模型無法像人類一樣在“刺激貧乏”的條件下習得語言,也無法對“可能的語言”與“不可能的語言”加以原則性的準確區分,更不可能像生成語法理論那樣對人類語言與腦科學中的“伽利略謎題”做出富有洞察力的合理的理論解釋。
當前,人類正在進入“人機共生”的新時代(李宇明2023),人工智能技術持續翻新迭代,關于大語言模型和人類語言能力的爭辯仍在等待時代的解答。想要證明大語言模型具備了真正意義上的與人類相當的語言能力,還需要看到更多足夠令人信服的證據。關于“圖靈之問”的爭辯還只是剛剛拉開序幕,對它做出更加令人信服的回答還需要來自人工智能、理論語言學、語言與人腦科學相關多個領域的科學工作者更深層次的跨學科互動與協作。
參考文獻
陳 平 2021 《語言交叉學科研究的理論與實踐》,《語言戰略研究》第1 期。
陳 旭,司富珍 2024 《基于漢語孤島現象的大語言模型語言能力評估》,《昆明學院學報》第5 期。
杭慧喆 2016 《摩爾論“圖靈測試”》,華中科技大學碩士學位論文。
杰弗里·辛頓 2024 《杰弗里·辛頓接受尤利西斯獎章時發表的獲獎感言》,陳國華,譯,《當代語言學》第4期。
李富強,康 興 2024 《大語言模型新興語法解讀能力評估:以完成體“有”為例》,《昆明學院學報》第5 期。
李宇明 2023 《“人機共生”的時代》,《語言戰略研究》第4 期。
林茂燦 2020 《用AI 技術研究自然口語,可以提上日程了》,《語言戰略研究》第5 期。
劉海濤 1997 《依存語法和機器翻譯》,《語言文字應用》第3 期。
劉海濤 2001 《關于自然語言計算機處理的幾點思考》,《術語標準化與信息技術》第1 期。
劉海濤 2008 《基于依存樹庫的漢語句法計量研究》,《長江學術》第3 期。
司富珍 2008 《語言論題——喬姆斯基生物語言學視角下的語言和語言研究》,北京:中國社會科學出版社。
司富珍 2023 《句法制圖理論研究》,北京:外語教學與研究出版社。
司富珍 2024 《語言與人腦科學研究中的“伽利略謎題”》,《外國語》第2 期。
孫茂松,周建設 2016 《從機器翻譯歷史看自然語言處理研究的發展策略》,《語言戰略研究》第6 期。
荀恩東 2022 《自然語言結構計算GPF 結構分析框架》,北京:人民郵電出版社。
Aboufoul, M. 2022. Despite their feats, large language models still haven’t contributed to linguistics. Medium. https://towardsdatascience.com/despite-their-feats-large-language-models-still-havent-contributed-to-linguistics-657bea43a8a3.
Baroni, M. 2022. On the proper role of linguistically-oriented deep net analysis in linguistic theorizing. ArXiv. https://arxiv.org/abs/2106.08694.
Biever, C. 2023. ChatGPT broke the Turing test — the race is on for new ways to assess AI. Nature 619(7971), 686–689.
Bobrow, D. amp; A. Collins.1975. Representation and understanding: Studies in cognitive science. Psychology. https://api.semanticscholar.org/CorpusID:142257184.
Bolhuis, J. J., S. Crain, S. Fong, et al. 2024. Three reasons why AI doesn’t model human language. Nature 627(8004), 489-489.
Chemero, A. 2023. LLMs diff er from human cognition because they are not embodied. Nature Human Behaviour 7(11), 1828–1829.
……
(因版面不足,以下參考文獻從略,可在中國知網上閱讀、下載完整版)
責任編輯:王 飆