999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大語言模型的語言能力評測研究:特征、路徑和趨勢

2025-07-29 00:00:00易保樹倪傳斌
江漢學術 2025年4期
關鍵詞:評測句法語言學

關鍵詞:人工智能;大語言模型;語言能力;語法能力;語言習得;句法加工中圖分類號:H0-05;TP18 文章標志碼:A 文章編號:1006-6152(2025)04-0073-11DOI:10.16388/j.cnki.cn42-1843/c.2025.04.007

語言習得研究的核心目標在于揭示人類語言能力發展的必要條件和充分條件,聚焦先天稟賦與環境輸入的互動機制。以Chomsky(1965)為代表的語言天賦論提出“刺激貧乏論”(PovertyofStimulus),強調人類具備特異性語言本能[1]。而實證主義學派則主張通過領域一般性學習機制與環境輸入的相互作用即可解釋語言發展2]。這種理論分歧凸顯出兩個關鍵問題:第一,單純觀察人類語言環境難以有效區分先天機制與后天經驗的各自貢獻;第二,語言習得神經機制的驗證仍需突破性研究方法的支持。當前人工智能領域大語言模型(LLMs)的突破性發展為上述問題提供了新的研究視角。LLMs是基于深度神經網絡的語言學習系統[3],其典型架構包含數百億至數千億參數4],通過海量語料庫訓練可掌握語法規則、語義表征及語用知識[5],展現出接近人類的文本生成、多任務處理等語言能力[6-7]。這類模型本質上構成了新型語言學習范本[8],其發展軌跡從統計語言模型到Transformer模型9],其語言能力發展對語言習得從理論到實踐都產生了深刻的影響,評測其語言能力和人類語言本能之間的差異成為熱點話題。本文通過回顧大語言模型語言能力研究,對比分析人類與LLMs在學習環境和機制方面的差異,重點探討大語言模型的語言能力評測特征和途徑。

一、大語言模型的語言能力

根據Chomsky(1965)對語言能力(competence)和語言表現(performance)的區分,“語言能力\"主要指對語言規則下意識的理解[1]。“大語言模型的語言能力”則指它對不同語言現象的理解能力,可分為形式和功能兩個部分。形式主要指對語法規則的泛化能力,而功能主要指語用推理以及語篇文本分析(如情感分析)能力等[10]。隨著大語言模型語言能力的突破性進展,評測其語言能力逐漸成為學界探究LLMs是否具備人類語言認知機制的新途徑[],相關研究歷經三個階段。

(一)萌芽期,人工智能領域的早期語言模型研究呈現明顯的學科壁壘

從圖靈測試(1950)到 N-gram 模型,再到神經網絡模型[3],人工智能的技術演進長期被視為獨立于語言學的工程實踐,大語言模型語言能力被認為和語言學沒有關系。研究者甚至主張每開除一個語言學家,語音識別系統性能就提升一個百分點,語言學的介入會降低模型的表現。而理論語言學界對此保持審慎態度,Katzir(2023)和Chomsky(2023)多次強調LLMs未遵循特定語言學理論,難以成為有效的認知模型[1-12]。盡管Linzen等(2016)開創性地測試部分神經網絡模型的句法加工能力,相關成果仍因模型性能局限未能引發語言學界的實質關注[13]

(二)爆發期,Transformer架構的革新催生研究范式轉變

自Linzen(2019)與Pater(2019)在《Lan-guage》發起語言學與深度學習的對話,大模型語言能力表現的實證研究呈現井噴態勢[14-15]。研究范圍覆蓋語音至語用各層級的評測[16-17],測評方法突破顯著,如構建多維度評測體系,涵蓋可接受性判斷[18]、神經認知數據[19]、BLiMP基準和Zorro數據集[16]。同時研究也開展大模型和人類語言能力認知機制比較,探討語言習得[20]、加工策略2等核心議題。學界形成兩大陣營:支持者認為LLMs具備人類語言結構表征能力[22],質疑者則指出它缺乏系統性知識表征與元語言意識[23]

(三)反思期,反思大語言模型和語言學的雙向賦能路徑

Piantadosi(2023)對“語言天賦論\"的批判引發學科反思[24-25.9],形成雙向研究進路:一方面,語言學知識被證實在提示工程[26]、小樣本學習[、規則理解[27等方面具有實踐價值;另一方面,LLMs開始作為實驗工具參與語言認知加工和習得研究[28-29],應用于名動區分[30]、語言遞歸[31]、孤島效應[32]等理論評測,甚至模擬人類被試的語言能力[33]。值得關注的是,反對聲浪持續存在:陸儉明(2025)等質疑LLMs未能反映人腦語言能力獨有機制[34],Katzir(2023)則指出大語言模型缺乏抽象符號編碼能力[1]

目前評測研究對大語言模型在語音、詞匯、語義、語用多個層級上是否展現出人類相似的語言能力的問題還沒有一致的答案,特別是大模型是否具有語言特異性語法規則泛化能力還是一個具有爭議性的話題。

二、大語言模型的語言學習環境和機制

LLMs依賴海量文本數據的靜態訓練,通過概率建模捕捉詞匯間的表層關聯,卻缺乏多模態感知和具身認知基礎。其學習受限于封閉的符號系統,無法將語言與現實世界的實體、動作及社會互動直接關聯。而人類語言發展植根于動態的互動環境:嬰幼兒通過視覺、聽覺、觸覺等多通道輸入,在具體情境中建立語義網絡,并借助心智理論推測他人意圖。

所以較之人類語言習得環境,大語言模型的學習環境差異顯著,主要表現在三個方面:輸入量級、輸人模態結構和環境效果。首先是輸入規模的量級差異。人類語言習得的輸入量級呈現漸進累積特征,兒童年均接觸詞匯量約300萬至1100萬35,青春期前累計可達千萬至億級。相較之下,主流LLMs的訓練語料規模呈指數級超越:ELMo(10億詞符)、BERT(33億詞符)、RoBERTa(300億詞符)至GPT-3(2000億詞符)[36-37.22.6]。Warstadt等(2020)通過BLiMP基準測試揭示:當RoBERTa接受300億詞符訓練時,其12項語法任務中6項達類人水平;但若將訓練量降至人類水平(1億詞符),類人表現僅存2項[16。這表明LLMs的語言能力與數據規模存在超線性關系,但關鍵語言現象(如長距離依存結構)仍存習得瓶頸。其次,輸入模態的結構差異。LLMs當前訓練語料以書面文本為主,缺失人類語言發展的核心特征;多模態感知缺位,兒童通過感覺一運動系統構建概念支架[38],而LLMs的語義表征僅源于文本共現模式,導致早期名詞偏向等認知特性難以復現;互動情境剝離,人類語言功能根植于交際意圖實現[39],而LLMs的生成機制缺乏真實對話的協商過程,且口語特征缺失,盡管近期研究嘗試整合CHILDES兒童語料4與COCA口語數據庫4,LLMs仍難以充分捕捉語音韻律等副語言特征[42]。最后,在環境效度方面,現有證據顯示當LLMs訓練數據嚴格限制于人類水平(如千萬詞符量級),其語言表現顯著退化[43]。這提示研究者需建立環境輸入的等效性標準。若欲將LLMs結論外推至人類,須確保模型訓練環境的豐富度不超過人類經驗上限。當前技術路徑如多模態整合[44]與互動任務強化,正試圖彌補LLMs的環境缺陷,但其認知架構的本質差異仍構成理論推廣的生態效度威脅。

可見,關于模型的環境支持假說45在LLMs中獲部分驗證,在毫秒級時間尺度內完成傳統語言習得研究需十年追蹤的縱向發展過程。大語言模通過海量語料庫的概率學習機制[46,8],動態呈現語言能力的演化過程。

三、大語言模型的語言特異性泛化能力評測

從學習環境來看,模型學習者在語料輸入量上具有一定的優勢,而人類學習者在語料輸人模態的生態效度上保持特質,兩者各有千秋。語言天賦論認為人類具有語言特異性的泛化能力[1],所以計算語言學界為了檢驗語言本能天賦論的核心假設,開發出三類實驗范式系統測量LLMs語言特異性泛化能力[14-15.47-50]:消融實驗、無監督測試和監督測試。

(一)消融研究

機器學習或者神經網絡模型中的消融研究(ablationstudy)旨在測量神經網絡模型的組成部分去除之后,神經網絡模型行為表現的變化[51]如圖1所示,一個含有N個模塊的神經網絡模型的消融研究,每次我們去除一個模塊,然后檢測新模型的表現,進而考察去除模塊的作用。

該消融研究可以用來回答某些問題,如優勢A(advantage)在習得目標語言知識T(target)中是不是必要條件,探討如果沒有A的學習場景下會發生什么。例如,學習場景通常有兩個主要變量:學習者本能的泛化能力和學習環境,如果消除A之后,模型能夠成功,那就說明沒有A,目標T可以習得。如果消融實驗顯示大模型較之人類沒有這種本能優勢,仍然可以成功習得T,那該結果可以推廣到人類身上,從可學性上來說人不需要A。若語言天賦論想有更強大的證據,就必須證明模型學習者相對于人來說沒有明顯的本能劣勢,如果消融,即去除該本能偏向,就會導致學習失敗。大語言模型的消融研究一方面可以用來驗證語言天賦論假設的相關理論觀點,通過模型來測試一些假設的泛化能力,例如,評測在目標學習時對層級句法偏向是否為必需品。目前如上文在大語言模型的學習環境中提及,許多具體研究顯示大語言模型(模型學習者)如若去除輸入量的優勢,輸入明顯貧乏,就會無法習得要觀測的語言行為。故此消融實驗顯示大模型可能沒有天生的語言特異性泛化能力[52]

圖1神經網絡模型消融研究示意圖

(二)無監督測試

無監督測試主要用來測試神經網絡模型的語言知識[52]。無監督測試不依賴標注訓練或者任何任務特異性訓練,這種方法揭示的語言知識通常是通過自我監察,暴露在學習環境或者通過學習者本能獲得。大語言模型的無監督測試主要利用語言模型的預訓練,根據之前的成分 W (i 某一成分的可能性,這些預測概率乘積能夠用來預測整個W序列,如圖2公式所示:

大語言模型使用語言模型的概率得分來評價它是否具有某種語法規則泛化能力,常見的測量任務為可接受性判斷任務。可接受性判斷任務是測量句法理論的主要方式[53],它可以提供豐富的行為測試來測量語法知識偏向。語言學家設計各種可接受性判斷任務[54]進行無監督測試,在針對語言模型的非監督測試中,最小對可接受性判斷被廣泛使用[55]。所謂最小對就是意指兩個句子僅1處不同,一個為可接受,另一個為不可接受。如例句(1)a和 (1)b (1)a:他昨天買了一本書和一支筆。b:*他昨天買了什么和一支筆。

句子構成最小對時通常在長度和一元概率上基本匹配,最小對主要聚焦可接受和不可接受句子之間的決定性差異,這是決定句子可接受概率的兩個決定因素[56]。所以最小對可接受性判斷任務可以評價模型預測可接受性等級差異的能力。這種方法基于一種假設:一個語法正確的句子 Wgood 比一個和自己差異最小但是語法不正確的句子 Wbad 出現的概率更高,語言模型在可接受性判斷中可以預測到這種差異,如圖3:

PLM(Wgood)gt;PLM(Wbad

為了提升無監督測試效度,研究者開始嘗試給可接受性判斷任務提供數據庫支持。Warstadt等(2018)開發英語語言學可接受性數據庫(Co-LA)18,包含10000個句子,涉及英語中67種最小對,每一種有1000對,包括形態、句法和語義等語言現象,如指代一致、元結構、控制和提升、限定和名詞一致、省略、填充和空位、不規則動詞、孤島效應、主謂一致等。他們測試了多個語言模型,但是模型在多個語言現象上沒有表現出優勢,且在填充一空位、長距離孤島結構等復雜語法結構中錯誤顯著。然而Warstadt等(2020)對可接受性數據庫進行了標注,之后再進行無監督測試,發現語言模型如GPT等會表現得更好,而在長距離依存如孤島結構的可接受性判斷中表現仍然較差[16]。在此基礎上研究者又開發了日語可接受性數據庫[5,包含10020個句子,331個最小對,Warstadt等(2020)對GPT-2、長短時記憶模型和 N-Gram 語言模型進行了測試,準確率達到 75% 左右,但是像長距離主謂一致、依存和孤島等識別的錯誤率依舊較高[16]。同樣利用無監督測試,Mikhailov等(2022)創建并利用俄語語言可接受性數據庫(包含134000個句子)對多個大模型(包括ChatGPT系列)進行了測試,結果發現在形態、語義和句法等方面大模型明顯落后于人類[58]。所以總體來看,在非監察測試下針對不同語言研究都很難明確大語言模型擁有對語法,特別是復雜句法規則如孤島結構等的特異性泛化能力。

(三)監督測試或者限制性監督測試

監督或者限制性監督測試,實際是對非監督測試的一種輔助,主要依靠對詞和句子標注及訓練來進行,如詞性標注、依存結構標注和共指消解等,都是常用的探測任務[59,在探測神經網絡模型的泛化能力方面有一定的作用,經典范式就是刺激貧乏實驗[60]。根據刺激貧乏論(povertyofstimulus),探測大語言模型能否像兒童一樣從有限且混亂的輸入當中習得某種語法規則,從而證明它也具有某種語言本能偏向。刺激貧乏實驗實際是訓練大模型(模型學習者)去完成一項句子判斷任務,訓練數據具有模糊和混亂特征,在兩個假設空間上(語言學歸納和表層歸納)都具有模糊性。首先,在訓練時,假設大模型應該具有兩種泛化能力:語言學歸納(如Isthemainverbinthe“ing”form)和表層結構歸納(如Does the word“the”precede“a”),輸人數據是混亂和模糊的,模型要從中去學習。其次,到測試時,改用清晰的數據,測試模型是否具有語言學偏向和表層結構偏向。基于監督測試的刺激貧乏實驗設計,研究者開始評測大語言模型傾向于基于句法結構的歸納還是基于主語和情態動詞倒裝的線性順序歸納48。McCoy等(2020)使用刺激貧乏實驗方法,測試多個循環神經網絡模型,重點考察對歧義主語和情態動詞倒裝結構泛化情況。結果發現人工神經網絡模型缺乏層級泛化能力[48],即使Transformer架構的大模型(如Deepseek等)也沒有發現多層級特異性泛化能力[49。然而,人工神經網絡(ANN)或者大語言模型缺乏類人語言特異性的泛化能力,使得它們成為更加合適的模型學習者,因為這些模型可能在這些領域沒有特別先天優勢。

從大語言模型語言規則泛化能力的三種常用測量(消融法、可接受性判斷和刺激貧乏實驗)來看,目前大模型在概率學習方面具有一定的泛化能力,但是并沒有語言特異性本能偏向。所以探測沒有先天語言特異性層級泛化能力的大語言模型,能否習得人類句法規則以及在語法特征方面,能否做出類人的可接受性判斷,可能是大語言模型語言能力評測的新興方向。

四、大語言模型語法能力的評測

從概率統計演化而來的大語言模型是否可以真正習得人類的語法特征?是否具備與人類相似的語言特異性語法能力?針對這一系列問題,實際就是要評測大語言模型是否具備類人語法能力。為此,研究者提出句法加工一習得路徑一基準建構三位一體的評測體系,包括大語言模型的句法加工能力評測、大語言模型的語法特征習得路徑評測、大語言模型語法評價基準的構建。

(一)大語言模型的句法加工能力評測

大語言模型的句法加工能力評測已經成為學界的熱點話題[61-63],主要聚焦語言模型和人類對語法規則合法性判斷情況的對比,相關研究已經覆蓋多個語法特征和規則[63]。例如,有研究者測試了GPT-4和GPT-3.5在系列語言和非語言任務中對語言區別性特征“遞歸性”的掌握情況,結果發現GPT-4可以識別、產出和分析語言的遞歸結構。當然有研究者質疑大模型對遞歸性的理解可能只是記憶的結果,因為大模型可能在進行大量的訓練之后,記住了訓練的文本內容[31]。所以這類表現可能只是記憶效應,它是否真正理解遞歸的認知本質仍然存疑。

針對復雜句法加工能力的評測,Warstadt和Bowman(2020)引入新數據集,涵蓋更多的語言學現象,他們從上文提到的語言學可接受性語料庫中選出十三種句法現象,如元結構、控制和提升、省略、填充和空位、句法孤島、主謂一致等,用這十三種句法現象來考察三種預訓練模型(BERT,GPT和BiLSTM)的句法習得情況[52]。結果發現這些模型雖然具有強大的復雜句加工能力,能輕松加工雙賓結構和被動句等,但是在長距離依存結構方面表現欠佳。例如,句(2)對所有三個模型來說具有一定的挑戰性,BERT和GPT模型相對于BILSTM來說具有一定的優勢。

(2)What do you think Iate_?

所以研究發現大模型在可接受性的分類上總體表現和人類一致,但是在一些復雜句法結構上沒有做出精細的區分[52]

在句法敏感性研究領域,為了解決句法依存等長句子的加工和習得問題,Linzen等(2016)開創性采用長短時記憶模型(LSTM)來考察該模型對學習句法依存的敏感性[13]。該研究發現LSTM模型在語言加工中可以成功捕捉句子長距離統計規律。同年他們進一步考察了LSTM模型對英語主謂依存結構中人稱數一致性的敏感性。在該研究中,他們首先進行嚴厲的監察,使用數的預測任務來訓練模型根據前面的單詞去猜測動詞數的變化[13]

(3)The keys to the cabinet

在數預測任務中,如例句(3):模型需要猜測后面的動詞是復數還是單數,需要判斷句子的動詞第三人稱單數、學習名詞的單復數、能否發現正確的主語和對應的動詞、需要對層級句法敏感等。數預測任務的特別之處在于可以生成大量的訓練句和測試句,然后使用語法合法性判斷任務來訓練和學習帶有標注的句子,顯示這些句子是否違反主謂一致,但是不顯示違反的位置。最后訓練模型在沒有采用任何語法監督情況下預測下一個單詞。該研究結果顯示在較強的監督場景下,LSTM模型可以取得較高準確率(錯誤率不到 1% ),但是模型對于捕獲句法敏感結構表現不佳,需要更直接的監督。

(二)大語言模型與兒童語言習得路徑評測對比

通過對比大模型和兒童的語言習得,評測大語言模型的語法特征習得和兒童母語習得的路徑是否有相似之處[64-66]。Evanson等(2023)探討大語言模型和兒童是否有相似的學習階段,重點比較神經網絡模型和兒童(18月一6歲)在句法一語義能力的習得順序上是否存在顯著性相關,他們共構建48個語言模型,評測每個階段大模型的句法和語義能力。在該研究中使用了來自BLiMP和Zorro的96個探測點和54名兒童的語言產出行為并進行對比,發現大語言模型和兒童相似,按照一定的系統順序學習語言技能,同時在部分學習階段上也表現相似]。Qin等(2024)指出大語言模型在生成連貫文本中的精彩表現已經激起大量討論,所以關于模型學習環境和人類語言可學性關系引起研究者的極大興趣[]。如上文所述,大語言模型接受的訓練數據和兒童收到的語言輸入存在巨大差異,模型訓練數據規模(TB級)遠超兒童語言輸入量(百萬),這種“超量學習\"可能導致語法表征機制的質性差異。為了消除數據偏差,Wang等(2023)和Qin等(2024)等嘗試用兒童的真實語料來訓練大模型,結果均發現訓練后的大語言模型可以建立句法范疇系統。這些大語言模型語言習得路徑評測,為語言學中“刺激貧乏論(Povertyofstimulus)”的爭論提供了新的視角[67-68]

(三)大語言模型語法能力評價基準的構建

為了深人探究大語言模型語法表征和人類語法能力的質性差異,研究者開始嘗試基于自然語言數據集,建構語法能力評測基準。在評價模型的語法能力中,多采用經典理論語言學家常用的推測語言的可接受性判斷任務,研究者已經建構大規模可接受性數據集,如英語、日語和俄語等[18.57-58]。基于這些數據集研究者著力句法、語義和形態等具體語言學現象的評價[62],開發語法能力評價系統如BLiMP[16]、SyntaxGym[67]、Zorro[8]等,例如,BLiMP(語言最小對基準評價系統)實際是對早期推理研究的拓展。這些早期研究主要使用最小對范式進行可接受性判斷任務,主要用來評測人類被試的語法能力。而BLiMP主要針對大語言模型,該評價系統主要由最小對組成(兩個句子幾乎相同除了在一個結構或者詞匯特征上有差異)。對于一個給定的最小對 ΔMi ,由兩個句子組成:一個可接受(S,1)和一個不可接受 (Si,2) 。如果一個語言模型能評測P(Si,1)gt;P(Si,2) ,那么這個模型就可以評測 ΔMi 。大語言模型對最小對句子的評測打分主要基于該可接受性句子在所有最小對中所占的百分比率,所以最小對范式可以讓大語言模型直接進行評測。當然最小對需要仔細建構,需要嚴格控制長度和詞匯頻率。BLiMP評測系統的語料庫涵蓋了12種語言學現象(指代一致、元結構、約束、控制提升、填充一空位、孤島效應、量詞、省略等),67種范式、1000句子對,可以用來測試模型的語言學知識和語法能力。

另外一種基準評價系統Zorro數據集,旨在評價語言模型和語法習得之間的關系[29],該數據集主要來自Baby-BERTa(RoBERTa的友好型版本),采用英語兒童直接產出的自然語言,接近一個6歲英語兒童的輸入量。訓練材料中的兒童直接話語主要來自英語CHILDES數據庫[40]。由于Baby-BERTa訓練數據要比大模型少得多,且詞匯量也較小,為了解決超范圍詞匯對測試基準評價系統的影響,按照BLiMP的樣式,Huebner等(2021)開發新的語法合法性測試系統Zorro,共包含12種語言現象,每種對應一種范式,句子不僅詞匯簡單且變化不大[50]

BLiMP和Zorro測試屬于基礎版,優點在于可以生成和測量大量的句子,缺點是所有的句子結構相同。此外許多結構較為簡單,遠低于現代句法分析的覆蓋面。例如,在BLiMP中,主謂一致現象,六個范式中有四個關于線性主謂一致,可以被2-gram模型捕捉到。盡管長距離,單個線性規則在這個現象上是成功的,但是簡單測試的成功并沒有驗證大模型的真實語法能力,所以有研究者質疑這些范式在評價大語言模型是否擁有語言學知識的總體目標中貢獻不大。雖然存在方法論爭議,但Warstadt等(2020)Gauthier等(2020)和Warstadt等(2018)基于上述數據集評價基準,聚焦句法、語義和形態,發現許多最新的神經網絡模型能夠基于無標注數據,像人類兒童一樣在語言習得中歸納出語法知識[16,67,18],具有一定的語法能力。

綜上所述,人工神經網絡和當下的大語言模型可以從無標注的自然文本中學習、生成文章,回答問題,可以做出類人的語法接受性判斷[6,16],適合提供低偏向可學性證據[14-15]。所以大語言模型的學習環境、規則泛化能力和語法能力對語言天賦假設和刺激貧乏論提出了極大的挑戰,但是這些研究也顯示語言模型并不能總是展現像人類一樣的泛化能力和語法能力,訓練的語料基于不真實的學習場景,如采用來自互聯網的大規模語料訓練大語言模型,造成這些研究不能針對性回答人類語言能力和大模型語言能力之間的差異本質。

五、結語

大語言模型的語言能力評測研究本質上是計算語言學與理論語言學、心理語言學、認知語言學及形式語言學之間的跨學科對話。這種互動體現為兩類研究范式的互補性:計算語言學通過構建計算模型揭示語言處理機制,而認知語言學、形式語言學和心理語言學等則聚焦兒童語言習得和人類語言能力的發展規律。二者在方法論與理論建構層面存在顯著的協調潛力。故此對未來研究有兩點思考:第一,能力邊界與理論挑戰:形式與功能的認知解耦。盡管大語言模型在形式語言能力層面取得突破,包括生成連貫文本、復現復雜句法結構等,但其功能語言能力仍存在系統性缺陷。即形式能力有優勢,通過海量參數實現語言模式的概率擬合,可模擬人類句法判斷行為[14];而功能能力有局限,在語用推理、意圖理解、跨模態關聯等涉及認知一社會交互的領域表現顯著弱于人類[12]。這種能力分離現象引發理論語言學界的激烈爭論。一方面是否定論,Chomsky(2023)強調大模型僅是語言行為的模擬工具,無法解釋人類語言器官(FLN)的生物特異性[2;另一方面是重構論,Piantadosi(2023)認為大模型的成功證明語言習得可通過純統計機制實現,這直接挑戰普遍語法的必要性假設24。第二,學科影響與范式轉型。當前大語言模型語言能力的突破性進展,正在重塑語言習得研究的方法論格局。理論工具革新,為“語言本能論”等長期爭議提供可計算的檢驗平臺;研究范式擴展,推動產生式模型成為繼行為實驗、腦成像之后的第三種實證研究路徑;學科邊界重構,迫使認知科學家重新審視語言能力的模塊化假設[9。值得警惕的是,現有大模型的訓練數據(互聯網文本)與兒童語言輸入存在生態效度偏差,這要求后續研究有必要建立以發展語言學為導向的大模型語言能力評測體系。

參考文獻:

[1]Chomsky N.Aspects of the Theory of Syntax[M]. Cambridge,MA:MITPress,1965.

[2]Franco PL. Susan Stebbing on Logical Positivism and Communication[J].Journal of Philosophy,2024 (10):48.

[3]馮志偉.計算語言學方法研究[M].上海:上海外 語教育出版社,2023.

[4]馮志偉,張燈柯.人工智能中的大語言模型[J]. 外國語文,2024(3):1-29.

[5]TayY,Dehghani M,TranVQ,et al. UnifyingLanguage Learning Paradigms[EB/OL].(2022-05-10) [2025-04-15]. https://arxiv.org/pdf/2205.05131.

[6] Brown TB,MannB,RyderN,etal.LanguageModels areFew-Shot Learners [EB/OL].(2020-05-28) [2025-04-15]. https://arxiv.org/pdf/2005.14165.

[7] Naveed H,KhanAU,Qiu S,et al.AComprehensive Overview of Large Language Models[EB/OL]. (2023-07-12)[2025-04-15]. https://arxiv.org/pdf/ 2307.06435.

[8] Marian V. Studying Second Language Acquisition in the Age of Large Language Models:Unlocking the Mysteries of Language and Learning,A Commentary on“Age Effectsin Second Language Acquisition:Expanding the Emergentist Account ”by Catherine L. Caldwell-Harrisand Brian MacWhinney[J].Brain and Language,2023(246).

[9]袁毓林.ChatGPT等大模型的語言處理機制及其 理論蘊涵[J].外國語,2024(4):2-14.

[10]Mahowald K,Ivanova A A,et al.Dissociating Language and thought in Large Language Models[J]. Trends in Cognitive Sciences,2024(6):517-540.

[11」Katzir K. Wny Large Language Models are Poor Ineories ofHuman Linguistic Cognition:A Reply to Piantadosi[J]. Biolinguistics,2023(17).

[12]Chomsky N. ChatGPT and Human Intelligence:Noam Chomsky Responds to Critics:Noam Chomsky Interviewed by Mirfakhraie [EB/OL].(2023-04-24) [2025-04-15]. htps://chomsky.info/20230424-2.

[13]Linzen T,Dupoux E,Goldberg Y. Assessing the Ability of LSTMs to Learn Syntax-sensitive Dependencies[J]. Transactions of the Association for Computational Linguistics,2016(4): 521-535.

[14]Linzen T. What can Linguistics and Deep Learning Contribute to Each Other?Response to Pater[J]. Language,2019(1) :99-108.

[15]Pater J. Generative Linguistics and Neural Networks at60:Foundation,Friction,and Fusion[J].Language,2019(1) :41-74.

[16]Warstadt A,Parrish A,Liu H,et al.BLiMP:The Benchmark of Linguistic Minimal Pairs for English [J].Transactions of the Association for Computational Linguistics,2020(8):377-392.

[17]劉海濤,元達.大語言模型的語用能力探索:從整 體評估到反語分析[J].現代外語,2024(3): 439-451.

[18]Warstadt A,Singh A,Bowman SR.Neural Network Acceptability Judgments [EB/OL]. [2025-04-15]. https ://arxiv. org/pdf/1805.12471.

[19]Binz M,Schulz E. Using Cognitive Psychology to Understand GPT-3[J]. Proceedings of National Academy of Sciences of the United States of America, 2023 (6).

[20]Pouw C,Klots MD H,Alishahi A,et al.Perception of Phonological Assimilation by Neural Speech Recognition Models [J]. Computational Linguistics, 2024 (4):1557-1585.

[21]Lampinen A. Can Language Models Handle Recursively Nested Grammatical Structures?A Case Study on Comparing Models and Humans[J]. Computational Linguistics,2024(4) :1441-1476.

[22]DevlinJ,Chang MW,Kenton L,et al.BERT:Pretraining of Deep Bidirectional Transformers for Language Understanding [C]/Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language lecnnoiogies: voiume 1, zU1y:41/1-4100.

[23]Frank M C. Bridging the Data Gap between Children and Large Language Models[J]. Trends in Cognitive Sciences,2023(11):990-992.

[24]Piantadosi S. Modern Language Models Refute Chomsky’s Approach to Language[EB/OL]. (2024-07- 05)[2025-04-15].https://ling.auf. net/lingbuzz/ 007180.

[25]Fox D,Katzir R. Large Language Models and Theoretical Linguistics[J]. Theoretical Linguistics,2024 (1): 71-76.

[26]Wang L,Chen X,Deng X,et al. Prompt Engineering in Consistency and Reliability with the Evidencebased Guideline forLLMs[J].NPJDigit Med,2024 (1):41.

[27]Opitz J.A Closer Look at Classification Evaluation Metrics and A Critical Reflection of Common Evaluation Practice[J].Transactions of the Association for Computational Linguistics,2024(12) : 820-836.

[28]Hu J, Mahowald K,Lupyan G,et al. Language Models Align with Human Judgments on Key Grammatical Constructions [J].Proceedings of the National Academy of Sciences, 2024(36).

[29]崔希亮.AI時代語言學的學科發展問題[J].現代 外語,2025(1):139-147.

[30]Rambell G,Chersoni E,et al. Can Large Language Models Interpret Noun-Noun Compounds? A Linguistically-Motivated Study on Lexicalized and Novel Compounds [C]/Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics: Volume 1: Long Papers,Association for ComputationalLinguistics.Bangkok,Thailand,2024: 11823-11835.

[31] Dabkowski M,Begus G. Large Language Models and (non-)Linguistic Recursion[EB/OL].(2023-06-12) [2025-04-15].https://www.semanticscholar.org/reader/ 55209dc15c9489c1e8ea3cc5d36b697b861f8919.

[32]Wilcox E,et al. What do RNN Language Models Learnabout Filler-Gap Dependencies?[C]//Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP,2018:211-221.

[33]Marjieh R,Sucholutsky I,van Rijn P,et al. Large Language Models Predict Human Sensory Judgments Across Six Modalities[J].Scientific Reports,2024 (14): 21445.

[34]陸儉明.大語言模型的\"語言\"跟自然語言性質迥 然不同[J].語言戰略研究,2025(1):1-1.

[35]Hart B,Risley T R.American Parenting of Language-learning Children:Persisting Differences in Family-child Interactions Observed in Natural Home Environments[J].Developmental Psychology,1992 (6):1096.

[36]Peters M E,Neumann M,Iyer M,et al. Deep Contextualized Word Representations[C]/Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics :Human Language Technologies:Volume 1:Long Papers,2018:2227-2237.

[37]Liu Y H,Ott M,Goyal N,et al.RoBERTa:A Robustly Optimized BERT Pretraining Approach [EB/ OL].(2019-07-26)[2025-04-15].https://arxiv. org/pdf/1907.11692.

[38]李宇明.兒童語言發展的連續性及順序性[J].漢 語學習,1994(5):6.

[39]Long M H. The Role of the Linguistic Environment in Second Language Acquisition [C]// Ritchie W C, Bhatia T K. Handbook of Second Language Acquisition.New York:Academic Press,1996:413-468.

[40]MacWhinney B. The CHILDES Project: Tools for Analyzing Talk Volume II:The Database[M].New York : Psychology Press, 2014.

[41]Davies M. The 385+ Million Word Corpus of Contemporary American English(1990-2008 + ):Design, Architecture,and Linguistic Insights[J]. International Journal of Corpus Linguistics, 2009(2):159-190.

[42]Lavechin M, Seyssel M D,Metais M,et al. Early Phonetic Learning from Ecological Audio:Domaingeneral Versus Domain-specific Mechanisms [EB/ OL].[2025-02-18]. https://osf. io/preprints/psyarxiv.

[43]ZhangY,Warstadt A,LiXC,et al.When do You Need Billions of Words of Pretraining Data?[C]//Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing:Vol.1:Long papers,2021:1112-1125.

[44]Lazaridou A,Baroni M. Emergent Multi-Agent Com[2025-02-18]. hps://arxiv. org/pdf/2006. 02419.

[45]Caldwell-Harrs C L,MacWhinney B.Age Efects in Second Language Acquisition:Expanding the Emergentist Account [J].Brain and Language,2023 (241):105269.

[46]Ornes S. The Unpredictable Abilities Emerging from Large AI Models[EB/OL].(2023-03-16)[2025- 01-17]. https://www.quantamagazine.org/the-unpredictable-abilities-emerging-from-large-ai-models20230316/.

[47]Warstadt A,Bowman S R.Can Neural Networks Acquire a Structural Bias from Raw Linguistic Data? [C]//Proceedings of the 42nd Annual Conference of the Cognitive Science Society,2020.

[48]McCoy RT,Frank R,Linzen T.Does Syntax Need to Growon Trees?Sources ofHierarchical Inductive Biasin Sequence-to-Sequence Networks[J].Transactions of the Association for Computational Linguistics,2020,8:125-140.

[49]Petty J,Frank R. Transformers Generalize Linearly [EB/OL].[2025-02-17]. https://arxiv.org/pdf/2109. 12036.

[50]Huebner P A,Willits JA. Using Lexical Context to Discover the Noun Category :Younger Children Have It Easier[C]// Federmeier K D,Sahakyan L,eds. The Psychology of Learning and Motivation Volume 75:The Context of Cognition:Emerging Perspectives.New York:Academic Press,2021:279-331.

[51]Meyes R,Lu M,Puiseau CW,et al.Ablation Studies in Artificial Neural Networks[EB/OL].[2025- 02-17]. https://arxiv. org/pdf/1901. 08644.

[52]Warstadt A,Bowman SR. What Artificial Neural Networks can Tell us about Human Language Acquisition[C]/ Lappin S,Bernady JP,eds.Algebraic Structures in Natural Language .Oxford:Taylor amp; Francis,2022:1-44.

[53]Schutze C T. The Empirical Base of Linguistics : Grammaticality Judgments and Linguistic Methodology[M]. Chicago,IL:University of Chicago Press, 1996.

[54]Sprouse J,Schutze C T,Almeida D.A Comparison of Informal and Formal Acceptability Judgments UsingaRandom Sample from Linguistic Inquiry 2001- 2010[J].Lingua,2013(134): 219-248.

[55]Marvin R,Linzen T. Targeted Syntactic Evaluation of Language Models [C]/Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing,2018:1192-1202.

[56]Lau JH,Clark A,Lappin S.Grammaticality,Acceptability,and Probability:AProbabilistic Viewof Linguistic Knowledge[J]. Cognitive Science,2017 (5):1202-1241.

[57]Someya T,Sugimoto Y,Oseki Y. JCoLA: Japanese Corpus of Linguistic Acceptability[EB/OL].[2025- 02-17]. https ://arxiv. org/pdf/2309.12676.

[58]Mikhailov V,Shamardian T,Ryabinin M,et al.RuColA:Russian Corpus of Linguistic Acceptability [EB/OL].[2025-02-17].https://arxiv.org/pdf/ 2210.12814.

[59]Belinkov Y,Glass JR.Analysis Methods in Neural Language Processing:A Survey [J]. Transactions of the Association for Computational Linguistics,2019 (7):49-72

[60]Wilson C.Learning Phonology with Substantive Bias : An Experimental and Computational Study of Velar Palatalization[J]. Cognitive Science,2006(5): 945-982.

[61] Chaves R P. What don’t RNN Language Models Learn about Filler-Gap Dependencies?[C]//Proceedings of the third Meeting of the Society for Computation in Linguistics (SCiL),2020.

[62]Wilcox E,et al. What do RNN Language Models Learn about Filler-Gap Dependencies?[C]/Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networksfor NLP,2018: 211-221.

[63]Hu J,Mahowald K,Lupyan G,et al. Language Models Align with Human Judgments on Key Grammatical Constructions[J].PNAS,2024(36).

[64]Evanson L,Lakretz Y, King JR. Language Acquisition :Do Children and Language Models Follow Similar Learning Stages?[C]//Findings of the Association for Computational Linguistics:ACL 2O23,Association for Computational Linguistics.Toronto,Canada, 2023:12205-12218.

[65]Qin Y,Wang W,Lake BM. A Systematic InvestigationofLearnability from Single Child Linguistic Input [EB/OL].[2025-02-17]. https://arxiv.org/pdf/2402. 07899.

[66]WangW,VongWK,Kim N,et al.Finding Structure inone Child’s Linguistic Experience[J].Cognitive Science,2023(6).

[67]GauthierJ,HuJ,WilcoxE,et al.SyntaxGym:An Online Platform for Targeted Evaluation of Language Models[C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics:System Demonstrations,Association for Computational Linguistics,2020:70-76.

[68]Martinez HJV,Heuser A,Yang C,etal. Evaluat

ingNeural Language Models as Cognitive Modelsof Language Acquisition [C]//Proceedings of the 1st GenBenchWorkshopon(Benchmarking)Generalisation inNLP,2023:48-64. [69]Fodor JD,Crowther C. Understanding Stimulus PovertyArguments[J].The Linguistic Review,2002 (19):105-145.

責任編輯:劉伊念(E-mail:lynsy@ jhun.edu.cn)

Linguistic Competence Evaluation of Large Language Models : Feature,Approachand Trend

YIBaoshu1,NIChuanbin2

(1.School of Foreign Studies,Nanjing University of Posts and Telecommunications,Nanjing 210023; 2.School of Foreign Languages and Cultures,Nanjing Normal University,Nanjing 210023)

Abstract:After reviewing researches on the development of linguistic competence of Large Language Models(LLMs)and comparing the different characteristics between LLMs and human speech learning, this study explores the evaluation of LLMs’linguistic competence and its theoretical implications from multiple dimensions,including the learning environment and mechanism,the measurement of languagespecific generalization ability,and the assessment of grammatical competence.It can be found that:In terms of learning environment,LLMs achieve eficient statistical generalization with massive single-modal text input,while humans develop language capacity in multi-modal interactions with higher ecological validity;their diffrencesare complementary.Regarding the core assumption of genetic theory of language,the results of ablation experiment,unsupervised and supervised tests reveal that although LLMs lack the prior grammatical specificity of humans,theycanreproduce some grammatical rules through statistical models. The assessment of grammatical competence indicates that although LLMs can acquire surface syntactic structures,thereare stillsignificant limitations in modeling human-specific features such as deep recursion and semantic-syntactic interfaces.Meanwhile,the emergent abilityof LLMs poses a dual challenge to the theory of stimulus scarcity and the genetic theory of language; it promotes the paradigm fusionof computational linguistics with theoretical linguistics,cognitive science and other fields.In the future,the assessment of LLMs’language capabilities needs to focus on the cognitive decoupling mechanism between language forms and functions,so as to explore the collaborative approaches of interdisciplinary methodologiesand clarifyLLMs’language capability boundaries.

Key Words:artificial intelligence(AI);Large Language Model (LLM);linguistic competence; grammatical competence; language acquisition; syntactic processing

猜你喜歡
評測句法語言學
認知術語學與社會認知術語學比較研究
基于人工智能的高中課堂精準教學策略研究
科教導刊(2025年19期)2025-08-17 00:00:00
人工智能背景下機器翻譯文學文本流水句漢翻法語篇連貫性研究
中醫藥典籍俄譯的術語生態研究
藝術科技(2025年8期)2025-08-13 00:00:00
語言學視角下的跨文化交際研究
大語言模型賦能語料庫建設的方法探究
集成電路IP核評測標準的研究
標準科學(2025年13期)2025-08-03 00:00:00
基于深度學習的漢字硬筆楷書智能評測系統的設計與應用
數字教育(2025年3期)2025-07-31 00:00:00
句法與句意(外一篇)
中華詩詞(2021年3期)2021-12-31 08:07:22
述謂結構與英語句法配置
主站蜘蛛池模板: 久久香蕉国产线| 欧美在线天堂| 无码一区二区三区视频在线播放| 性激烈欧美三级在线播放| 国产日产欧美精品| 亚洲aaa视频| 亚洲综合天堂网| 国产偷国产偷在线高清| 一级毛片a女人刺激视频免费| 亚洲V日韩V无码一区二区| 中文字幕 91| 亚洲一区波多野结衣二区三区| 成人在线天堂| 国产午夜人做人免费视频| 国产v欧美v日韩v综合精品| 国产第四页| 国产视频久久久久| 91网址在线播放| 日韩在线第三页| 狠狠色成人综合首页| 日韩专区欧美| 欧美不卡在线视频| 免费高清毛片| 午夜限制老子影院888| 久热这里只有精品6| 毛片一区二区在线看| 国产精品xxx| 99视频全部免费| 色欲色欲久久综合网| 欧美亚洲第一页| yjizz视频最新网站在线| 午夜a级毛片| 国产欧美日韩另类| 国产青榴视频在线观看网站| 久久情精品国产品免费| 国产日韩欧美视频| 国产在线一区视频| 在线观看欧美精品二区| 四虎永久在线精品影院| 久久亚洲中文字幕精品一区| 久热精品免费| 日韩福利在线观看| 波多野结衣第一页| 思思热在线视频精品| 欧美日韩亚洲综合在线观看| 国产一级在线播放| 成人一区在线| 欧美a在线视频| 日韩一区二区三免费高清| 欧美成人午夜视频免看| 国产成人综合在线观看| 99热国产这里只有精品9九| 亚洲天堂在线免费| 美女高潮全身流白浆福利区| 曰韩人妻一区二区三区| 美女视频黄频a免费高清不卡| 日韩精品成人在线| 国产日韩久久久久无码精品| 国产靠逼视频| 91蜜芽尤物福利在线观看| 亚洲综合第一区| 激情综合网激情综合| 欧美一区福利| 国产精品无码一二三视频| 亚洲啪啪网| 在线人成精品免费视频| 99久久国产精品无码| 白丝美女办公室高潮喷水视频| 成年片色大黄全免费网站久久| 国产又粗又猛又爽视频| 黄色免费在线网址| 女人18毛片水真多国产| 日韩国产综合精选| 日韩精品一区二区三区中文无码 | 91福利免费视频| 欧美中文字幕无线码视频| 毛片最新网址| 在线看片中文字幕| 国产免费羞羞视频| 亚洲 成人国产| 中文字幕有乳无码| 国产成人精品一区二区三在线观看|