999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

發現程序與分布:語言習得有效模型

2025-02-13 00:00:00陳保亞陳樾
華文教學與研究 2025年1期
關鍵詞:語義經驗規則

[摘 要] ChatGPT的出現引人關注,其最顯著的進展應該是自然語言文本的生成。ChatGPT能夠生成嶄新的合法句子,說明ChatGPT已經獲得了自然語言文本的單位和生成規則。ChatGPT不需要和經驗打交道,不具備“酸、甜、苦、辣、痛、悲、愁”等詞匯背后的經驗,卻能生成包含這些詞的合法句子。這是語言學家、人工智能專家和哲學家需要解釋的重要理論問題。決定語言規則的初始概念包括詞、詞類、語法結構關系、語義結構關系、語用結構關系等,ChatGPT由于是自動學習規則,并未利用這些初始概念,它唯一能夠利用的是大規模文本中自然片段的分布。通過文本中自然片段的分布獲取單位和規則,這是一種言知而非親知的學習方式。ChatGPT言知學習方式的成功證明了結構語言學家Harris的發現程序及其核心部分的分布理論具有可行性,也為語言形式主義的可行性提供了證據。ChatGPT基于言知的學習模式需要以大數據和超強運算這樣一種強儲算能力為基礎,還未揭示人類基于親知的語言學習機制,人類學習依賴的是基于小數據和基本運算這樣一種弱儲算能力。不過基于言知的學習模式所依賴的發現程序及其分布理論對人類學習語言仍然有必要性。親知學習方式和言知學習方式都是語言學家需要回答的問題。

[中圖分類號] H08 " [文獻標識碼] A " [文章編號] 1674-8174(2025)01-0001-08

1. ChatGPT語言學方法:基于言知的分布理論

ChatGPT的出現引起了人們的廣泛關注。作為一種大語言模型(large language model),ChatGPT有兩個重要的基礎,一個是人工神經網絡(artificial neural networks)數學模型,簡稱ANN,另一個是大數據,包括網絡上的各種文本。人工神經網絡通常又被稱為神經網絡,其基本原理就是模仿人類大腦神經網絡進行非線性回歸計算,自動建立預測模型。這種神經網絡有很多隱藏很深的層次,所以其自動建模的過程也稱為深度學習(deep learning)。基于人工神經網絡,ChatGPT能夠自動讀取網絡上包括維基百科等在內的海量文本,從中模擬出語言生成模型,生成新的句子和文本。ChatGPT在數學計算和數據存儲方面,遠遠超過了人類的大腦。ChatGPT目前已經進入Chat-4版本,盡管還有很多能力無法和人相比,比如數學證明能力,理論創新、領悟和反思等,但ChatGPT能說出在之前所有的海量文本中沒有出現過的嶄新句子,并且這些句子都極其自然,符合語言規則,這說明ChatGPT肯定還原出了語言單位和規則。言語行為中還原出有限的單位和規則,生成嶄新的句子和文本,這是自然語言習得的核心內容。在自然語言文本處理方面,ChatGPT解決了計算語言學中耗時費力的自動分詞、詞性標注、規則提取等難點問題,這是一個重要的轉折。

ChatGPT的語言學習方式和人類語言學習方式不一樣。ChatGPT并不和經驗打交道,不具備包含在“酸、甜、苦、辣、痛、悲、愁”等詞匯背后的經驗,卻能生成包含這些詞的合法句子。ChatGPT直接從海量文本入手,通過自動學習獲取單位和規則。人類學習語言需要和經驗打交道,“酸、甜、苦、辣、痛、悲、愁”等詞匯背后都有生活經驗的支持。拿漢語來說,ChatGPT接受的文本只是字的不同排列方式構成的文本,或者說字的不同分布方式構成的文本。ChatGPT只能依賴字和字組的不同分布差異來獲取漢語的生成規則。這就引出了一個在理論語言學上非常重要的結論:只要有了足夠的文本,就可以還原出單位和組合規則,生成符合規則的嶄新句子。這一結論對現有的語言理論形成了很大沖擊。現有語言理論承認并啟用了很多初始概念或元語言概念,比如詞、詞類、語法結構關系、語義結構關系和話語結構關系,ChatGPT繞過了這些初始概念。現有的語言理論,尤其是認知語言學,假定語言規則的獲取必須依賴經驗,ChatGPT也繞過了經驗。

ChatGPT的學習模式只跟文本打交道,無需跟經驗打交道,這是從文本到文本的學習模式,可以稱為言知學習方式。人類的語言學習方式需要跟經驗打交道,跟經驗打交道的語言學習方式可以稱為親知學習方式。在親知學習的基礎上,人類也具有言知學習方式,因此人類的語言學習方式是親知和言知共同作用的二元學習方式。目前ChatGPT的言知學習模式是如何實現的,這是語言學、人工智能、哲學需要解釋的重要理論問題,核心是機器是否理解語言,能否思維,這是圖靈所代表的功能派和塞爾所代表的解釋派長期爭論的問題。與此相關的問題是如何回答杰克遜(Jackson,1982)提到的另一個思想實驗,即“瑪麗的房間”(Marys room)。瑪麗在一個黑白房間看黑白電視,閱讀黑白書籍,學會了關于顏色的所有知識,成為色彩專家。如果某一天瑪麗真正看到了現實中的蘋果,她關于色彩的知識是否會增加?在這一點上ChatGPT有些像瑪麗,不過ChatGPT連電視也可以不看,只在文本中學習就能獲得語言規則。這一“知識論證”問題的爭論還將持續下去。可以肯定的是,ChatGPT確實學會了語言單位和語言規則,我們需要從語言學角度回答這是如何實現的。這也可能是將來回答“知識論證”的重要條件。

2. Harris分布理論的可行性

語言理論解釋語法規則,至少用到了詞、詞類、語法結構關系、語義結構關系和語用結構關系等初始概念,詞類更是長期以來都被當做語法的初始概念。比較下面實例:

“白馬”和“很冷”盡管都是偏正關系,但由于直接成分的詞類不同,結構的功能也不同,這說明詞類具有初始性。詞類相同,結構關系也可以不同,下面實例的直接成分詞類相同,但由于結構關系不同,既可以是偏正結構,也可以是并列結構,因此意義也不同:

塑料玻璃/電腦桌子/香蕉芒果/香蕉蘋果/衣服帽子/學生家長/孩子父親

這說明結構關系也具有初始性。

詞類和句法結構關系這兩個初始概念,ChatGPT并沒有用到,但ChatGPT所生產的句子中并沒有違反詞類規則和結構關系的現象,比如類似下面的錯誤ChatGPT一般不會出現:

*很房間(違反語類規則)

*吃買雞(“吃”不能帶述賓結構,只能是“吃買的雞”)

這說明ChatGPT通過分布解決了詞類和語法結構關系所處理的問題。至于ChatGPT是否在人工神經網絡黑箱中建立過詞類和句法結構關系這兩種初始概念,目前還不清楚。

ChatGPT在言知學習上取得的成功讓我們開始重新思考結構語言學中Bloomfield所倡導的分布理論(distributional methodology)。ChatGPT所面臨的海量文本只是自然片段的不同分布,即使ChatGPT能夠閱讀到大量詞典,這些詞典的定義也是自我循環,根本上也是屬于不同的文本分布(陳保亞、陳樾,2024)。所以ChatGPT所能利用的方法就是在自然片段的分布中尋找單位和規則,而這種分布思想,曾經是結構語言學后期的一個重要理論。

布龍菲爾德(Bloomfield,1926、1933)闡述了他的語言行為主義理論,他把詞的意義看成詞的用法,也即詞的分布(distribution)。Bloomfield認為語言的意義必須通過行為活動來解釋,因為行為活動是可觀察的,可實證的,而通常意義上的“意義”是不可觀察的,不可實證的,這就構成著名的“物理主義”,其目的是排斥對意義的主觀解釋。基本模式是:

Sgt;r……sgt;R

S的刺激產生了話語r(我想吃蘋果),話語r和話語s相互作用,產生了R(摘蘋果),這就是物理主義所闡釋的語言的意義。由于這種模式是通過可觀察的行為來解釋意義,使意義的解釋進入了實證的范圍,所以人們也把這種解釋模式稱為行為主義解釋模式。Bloomfield把詞定義為最小的能夠獨立成句的單位,就是一種分布表述。成句就是一種獨立分布。

和Bloomfield一脈傳承,Harris(1946、1951)更為系統地闡述了分布理論。Harris認為可以從語素的分布開始,生成全部的話語,所有的功能關系,包括句子成分、語法結構關系、語義結構關系、各種表達關系,都屬于元語言,都跟經驗有關系,并且帶有一定的主觀性,因此都被取消,剩下的只有分布和語素類,而語素類也可以通過分布解釋,因此語法描寫的初始概念就只剩下了語素及其分布,Harris的理論也因此被稱為分布理論。Harris此時已經完全和基于經驗的功能主義分道揚鑣,走向形式化的道路。Harris力圖借助最少的概念和原則,從可觀察事實出發,提取單位并分類,通過單位的分布來說明組合關系,這一方法后來被Chomsky(1957、1965)稱為發現程序(discovery procedure)。

發現程序的出發點是語言調查中得到的音素(phonetic elements)片段或序列,發現程序通過音素的分布發現音位、語素,通過語素的分布發現語類和組合規則。以發現程序為核心的研究取向也被稱為“后結構語言學”。Harris(1946)的論文特別系統地討論了怎樣通過語素(morpheme)的分布建立語素類,怎樣通過語素類建立語素組合的類。比如名詞性語素N可以出現在復數-s前,定冠詞the后,組成名詞類;動詞性語素V可以出現在-ing和ed前,組成動詞類。Harris認為the后面是鑒定名詞的框架之一(Harris,1946),實際上所有的形容詞都可以出現在這個框架中,比如:

the good/the black/the red/the big…

因此the-這個分布環境不僅有名詞,也有形容詞,因此the A和the N共同形成一個語素組類NP。

語言中語素的分布異常復雜,如果大量觀察豐富的文本,可以看出,每個語素都有自己不同的分布,所以語言學家要靠手工全面描寫每個語素的所有分布,其難度非常大。Harris(1951)的《結構語言學方法論》把分布分析推到了極致,手續相當嚴密復雜,閱讀起來也相當困難。由于分布分析方法在手續上的復雜性,后來很多結構語言學家都未能走Harris的道路,而是重新走向功能主義的道路,更多的依靠語法結構關系、語義結構關系等初始概念描寫語言規則。盡管Harris的分布理論手續復雜,ChatGPT的出現證明,根據文本中自然片段的分布可以得到單位和語言規則。ChatGPT首先要在文本中提取單位,英語文本中的空格和標點符號為ChatGPT提取自然片段提供了條件,這些片段就是詞(word)。漢語文本中一個個具體的字也是可觀察片段,為ChatGPT提取語法單位提供了條件。根據自然片段的分布歸納單位,再歸納單位在各種分布位置上的各種語法語義特征,每個單位的全部特征被作為一組向量參與組合運算,獲得語言規則,最終生成合法的嶄新句子。這就是ChatGPT的工作原理,在方法論上和結構語言學發現程序完全相似,分布在發現程序中居于核心地位。ChatGPT在生成文本上的成功對Harris發現程序及其核心方法分布理論的可行性是有力的支持,或者說分布理論在ChatGPT中得到了實現。

ChatGPT所依賴的算法是辛頓(Hinton)等的人工神經網絡,而人工神經網絡的方法原則從源頭上看就是數學中勒讓德(Legendre)和高斯(Gauss)的回歸理論,只不過勒讓德和高斯的回歸是線性回歸,后來數學家發展出了非線性回歸,但基本原則是相同的,即如何從復雜的要素分布中模擬出數學模型,然后預測未知的要素分布。從方法論看,這其實就是數學上的一種分布理論,即通過要素的分布建模。目前的人工智能還未充分發展出和外部經驗世界打交道的機器人,所以也只能依賴和經驗無關的分布理論。此前在計算語言學中廣泛存在的概率模型,也是基于分布概率確定單位和規則,其方法論基礎也是分布理論。ChatGPT之所以最終取得成功,并非和語言學中的分布理論不同,而是在于有了強儲算能力。網絡上的大數據是現成的,近些年來人工智能所作的主要工作就是提高計算機的運算速度,找出最佳的、通過分布提取特征的人工神經網絡算法,辛頓(Hinton)等人的反向傳播算法(Backpropagation algorithm)以及瓦斯瓦尼(Vaswani)等的人工智能奠基性論文 《關注就是你所需要的》(Attention is all you need),就是算法上有代表性的突破。

Harris的分布理論是一種獨立于經驗的純形式分析,即分布理論只關心自然片段在文本中的分布,即自然片段出現的位置,這是可觀察事實。分布理論并不關心自然片段組合中的語法組合關系和語義組合關系,也不關心背后的語義解釋,甚至連詞類也納入分布解釋,因為除了分布,所有這些概念都是不可直接觀察到的。ChatGPT作為自動學習的大語言模型,面對海量文本只能利用自然片段分布這一可觀察事實,無法利用基于詞類、語法成分、語義成分等元語言概念。ChatGPT能夠獨立于經驗,獨立于語義解釋和認知解釋而通過文本中自然片段的分布獲得語言的單位和規則,不僅證明了分布理論是可行的,即語言規則可以獨立于經驗、語義、認知而獲得,同時也引出了一個更一般的結論,語言規則可以是純形式的;后來喬姆斯基(Chomsky,1955、1957、1965)的理論正是這一觀念的延續。

3. 形式語義的可行性

要生成合法的句子,語言規則研究中很重要的一個初始元語言概念就是語義結構關系或論元結構。Harris分布理論主要描寫語法結構,未涉及語義結構。語義結構關系之所以被作為初始的元語言概念,就在于很多歧義必須依賴于論元結構才能得到解釋,比如:

a. 來的是[小孩施事]

b. 看望的是[小孩施事、受事]

看望母親的是[小孩施事]

母親看望的是[小孩受事]

c. 送的是[小孩施事、受事、與事]

送花的是[小孩施事、與事]

送醫院的是[小孩施事、受事]

我送的是[小孩與事、受事]

送醫院鮮花的是[小孩施事]

我送醫院的是[小孩受事]

我送(他)鮮花的是[小孩與事]

右方括號左上方的名詞標注了“小孩”可能作哪些語義格或論元,如果可以作兩個或兩個以上的語義格,就形成了歧義,只有當句子中語義格得到補充,歧義才可能消除。ChatGPT一般不會違反論元結構的規則,不會生成“送醫院鮮花的是大門”這樣一些不符合論元角色的實例。

ChatGPT通過文本分布分析正確地完成了論元結構要完成的工作,這是令人吃驚的,因為語言研究中,論元角色“施事、受事、與事”等的判定,要高度依賴經驗。ChatGPT在這方面的成功證實了分布分析模式也可以解決和經驗高度相關的語義組合規則,這就證明了形式語義理論的可行性。

形式語義理論和Harris的分布理論在追求實證方面一脈相承。論元結構的研究最早始于數理邏輯中的論元(argument)研究(Carnap,1934),屬于純形式化研究,后來在語言學中出現了配價語法。上世紀前半葉,學界已經開始研究以動詞為中心的搭配模式,如:Bühler(1934)、Tesnière(1934)、de Groot(1949),這些研究都涉及到語義。到上世紀五十年代,Tesnière(1959)比較系統地構建了配價語法的體系,也稱為從屬關系語法。他的研究也離不開語義、功能分析,因此也和經驗相關。他將語言中的非動詞成分分成兩類,即行動元(actants)與環境元(circonstants),其中行動元指動作的主要參與者,環境元是背景成分。“行動”“環境”等概念都涉及到語義分析。Tesnière以動詞攜帶的actants的數量將動詞分成零價到三價動詞。

從屬關系語法最基本的概念是關聯(connexion)。法語Alfred parle(Alfred 講話)中,Alfred 和 parle之間有一種關聯關系。關聯是有層次的,這就是從屬關系。在Alfred mange une pomme (Alfred 吃蘋果)中,動詞mange(吃)是句子的“結”(noeud),Alfred 和pomme從屬于動詞mange,une從屬于pomme。Tesnière認為動詞是句子的中心,賓語和主語受動詞支配,賓語和主語是平等的。“價”是和動詞相關的重要概念。與動詞直接發生關系的名詞詞組構成“行動元”和由副詞詞組形成的“狀態元”。行動元的數目不得超過三個,即:主語、賓語1、賓語2。行動元的數目決定了動詞的價(valnce)。比如:

零價動詞(verbes avalents): il pleut (下雨)

一價動詞 (verbes monovalents): il dort (他睡覺)

二價動詞(verbes bivalents): il mange une pomme (他吃蘋果)

三價動詞(verbes trivalents): il donne son livre a Charles (他把他的書給Charles)

狀態元從理論上說是無限的。Tesnière主要是從句子成分來解釋動詞的價,還比較形式化。

從六十年代開始,論元所攜帶的語義角色成為研究重點,這期間產生了許多有影響的研究,如Gruber(1965)、Fillmore(1968、1977a)、Anderson(1971)、Jackendoff(1972)、Dowty(1991)、Goldberg(1995)。Fillmore的工作最為深入。從語義結構關系上看,Fillmore的語義格(論元)和Tesnière所說的動詞的價也有共同的地方。從統一的角度看,動詞的“價”是由動詞的“格”框架決定的,所以“格”是最基本的、更初始的概念,決定了格就決定了價,但決定了價不一定就決定了格。如“一價”的動詞可以有“人來了”,也可以有“天亮了”,但“人”和“天”在這里的語義格是不一樣的,“人”是施事,而“天”不是。

Tesnière價理論依賴的框架主要還是語法結構的概念,比如詞類和主語賓語等句子成分,而語義格理論要依賴施事、受事等語義角色。從Tesnière價理論到Fillmore的語義格理論(論元理論),更強調了語義的作用,也更強調了經驗的作用,因為論元結構中語義角色的判定,都需要涉及到更多的經驗,因此在論元研究中存在很多分歧,但有一點是一致的,即學者們都承認語言規則研究中跟語義相關的論元結構是必不可少的層面,因此也必須和經驗層面發生關系。后來的認知語義學,也都肯定了經驗研究的重要性。

ChatGPT基于分布的還原模式,完全繞開了語義以及和語義相關的經驗層面。ChatGPT所生成的句子并沒有違反論元結構規則,這就等于證明了一個理論命題:基于分布的形式分析可以獲得語義規則。用形式分析解決語義,正是形式語義學的最高目標。這個目標至少在ChatGPT的文本處理中完成了。

其實Chomsky(1965)就提出了一套解決論元結構的形式化方案。比較下面兩種處理方案:

張三送李四一本書

論元處理方案:施事+V+與事+受事

形式語義方案:NP1+V+NP2+NP3

形式語義方案并不給出“施事、受事、與事”等語義角色解釋,而是通過轉換或移位等方式來表現雙及物結構的性質。比如:

NP1+V+NP3+to+NP2 (英語)(John sent a book to Jack)

NP1+V+給+NP2+NP3 (漢語)(張三送給李四一本書)

Chomsky的這種轉換分析其實就是從文本到文本,不追問NP的語義角色,本質上也是一種分布,因為原式和轉換式之間基本上是句子成分分布的差異。這和ChatGPT的從文本到文本的思路有相似之處。最近喬姆斯基在電視采訪中認為ChatGPT對語言認識沒有貢獻,辛頓則認為喬姆斯基的語法理論誤導了語言學家,其實雙方是有誤解的。ChatGPT不僅支持了分布理論,而且支持了形式語義理論。

形式語義分析理論后來有了很多發展,規則也非常多,在ChatGPT的分布模式中,論元規則是如何獲得,現在還不清楚,但至少在言知層面為形式語義分析的有效性提供了證據,因為形式語義分析所依賴的經驗相對較少。

4. 余論:分布理論與二語學習

人腦不具備ChatGPT那樣的強儲算能力,因此不可能像ChatGPT那樣來學習語言。人類語言學習既包括跟經驗打交道的親知,也包括跟文本打交道的言知,這可能是人類能夠在弱儲算能力下根據有限語料在幾歲以前習得語言的關鍵。人類學習語言可以借助經驗并且必須借助經驗,因此人類學習語言就可以利用建立在經驗基礎上的各種初始概念,如詞類、語法結構關系、語義結構關系等,這些初始概念以及經驗在不同的語言中可能都有特定的權重。比如下面兩種動詞加名詞的組合:

養魚/買魚/吃魚/釣魚/打魚/捕魚

烤魚/蒸魚/煮魚/炒魚/煎魚/燒魚

第一組只有述賓結構,第二組有歧義,包括述賓結構和偏正結構。利用詞類、偏正結構和述賓結構,人類學習語言可以很好地說明歧義。至于第二組為什么有歧義,如果借助基于經驗的外部知識,就會發現第二組的動詞都是烹調動詞。漢文化烹調技術很發達,以至于可以用不同的烹調動詞來分類,而偏正結構正好包含有分類的功能。人類學習語言完全依靠純分布來解釋第二組的歧義,難度相當大,利用初始概念和經驗知識,要容易得多。可見初始概念、經驗、認知等對人類學習語言的重要性,這也許說明了人類為什么依靠弱儲算能力就能在3歲以前基本學會語言。

盡管人類學習語言和ChatGPT的方式不同,但不能因此否定ChatGPT在純文本學習層面或者說言知學習層面的有效性。ChatGPT分布分析的成功不僅肯定了語言學的分布理論和形式語義理論在自然語言言知文本學習上的可行性,也為人類以親知為基礎的語言學習提供了借鑒。語言學中各種元語言概念,比如詞類、語法結構關系、語義結構關系和語用結構關系都是研究者歸納出來的,是否歸納合理,其實需要檢驗。比如朱德熙(1981)就認為漢語的主語和話題相同,不要分出兩套初始概念。徐通鏘(1997)則認為漢語語法結構單位是字而不是詞。人類學習語言面臨的是自然句子,人類必須還原出有限的單位和規則才能生成嶄新的句子和文本,人類這一學習過程能利用的觀察事實一是自然片段在句子中的分布,一是句子使用的經驗環境,并沒有現成的元語言概念。各種元語言概念需要通過分布和經驗環境來確定,從這一點看,發現程序及其分布理論在人類語言學習理論中仍然很重要。目前語法體系使用了太多的元語言概念,但不一定都有利于學習。詞法和句法的區分就不一定反映了單位組合的規則,詳見表1:

前三列實例都是規則分布,因此是規則組合,不需要記憶,后三列實例是不規則分布,因此是不規則組合,需要記憶。但基于句法和詞法的理論體系并不反映這種差異。上表中句法并不對應規則組合,詞法也不對應不規則組合。這就存在一個問題,漢語中區分詞法和句法的理據是什么?ChatGPT由于是自動學習,除了單位的分布沒有其他任何初始概念可以依賴,也沒有詞法和句法區分,其人工神經網絡黑箱中是否區分了這兩個部分,需要進一步研究。對于語言學習者來說,即使沒有句法和詞法的區分,也可以根據分布區分出上面的規則組合和不規則組合,即規則組合是可以平行周遍類推的,而不規則組合不能進行平行周遍類推(陳保亞,2006)。

ChatGPT在文本學習和文本生成上的成功,讓我們認識到機器人學習語言過程中分布的重要性。人類學習語言也應該重視語言單位的分布。語言學家更應該引導語言學習者從單位的分布這一可觀察事實出發,主動發現組合規則,而那些無法解釋清楚的元語言概念或初始概念不應啟用太多。

[參考文獻]

陳保亞 2006 論平行周遍原則與規則語素組的判定[J]. 中國語文(2).

陳保亞 陳 樾 2024 人類語言習得的親知還原模式——從ChatGPT的言知還原模式說起[J]. 北京大學學報(哲學社會科學版)(3).

卡爾納普 1934/1962 哲學和邏輯句法[M].上海:上海人民出版社.

徐通鏘 1997 語言論[M]. 長春:東北師范大學出版社.

朱德熙 1982 語法講義[M]. 北京:商務印書館.

Anderson, J.M. 1977 On Case Grammar[M]. London : Groom Helm.

Bloomfield, L. 1926 A set of postulates for the science of langguage[J]. Language Vol. 2.

——— 1933 Language[M]. New York : Henry Holt.

Bühler, Karl 1934 Sprachtheorie[M]. Jena: Fischer.

Chomsky, N. 1955/1975 The Logical Structure of Linguistic Theory[M]. New York: Plenum.

——— 1957 Syntactic Structures[M]. the Hague: Mouton.

——— 1965 Aspects of the Theory of Syntax[M]. Cambridge: MIT Press.

Dowty, David R. 1991 Thematic Proto-Roles and Argument Selection[J]. Language 67.

Fillmore, C. 1968 The case for case[A]. In E. Bach and E.Harms(eds.), Universals in Linguistic Theory[C]. New York: Holt, Rinehart, and Winston: 1-90.

——— 1977 The case for case reopened[A]. In Cole, p.and Sadock, J.M. (eds.), Syntax and Semantics 8[C]. New York: Academic Press: 59-81.

Goldberg, A. E. 1995 Construction: A Construction Grammar Approach to Argument Structure[M]. Chicago: Chicago University Press.

Gruber, J. S. 1965 Studies in Lexical Relations[D]. Ph.D. dissertation, Cambridge, Mass: MIT Press..

Harris, Z. S. 1946 From morpheme to utterance[J]. Language 22.

——— 1951 Methods in Structural Linguistics[M]. Chicago: University of Chicago Press.

Jackendoff, R. S. 1972 Semantic Interpretation in Generative Grammar[M]. Cambridge Mass: MIT Press.

Jackson, Frank 1986 What Mary Didnt Know[J]. Journal of Philosophy. 83(5):291-295.

——— 1982 Epiphenomenal Qualia[M]. Philosophical Quarterly. 32(127):127-136.

Sapir, E. 1921 Language[M]. New York: Harcourt, Brace and Company.

Tesnière, L. 1934 Comment construire une syntaxe[J]. Bulletin de la Facultè des Lettres de Strasbourg. Université de Strasbourg.

——— 1959 Elèments de Syntaxe Structurale[M]. Paris: Klincksieck. (《結構句法基礎》部分內容載胡明揚(主編)《西方語言學名著選讀》. 北京:中國人民大學出版社1988年版).

Vaswani, Ashish, etc. 2017 Attention is all you need[J]. Neural Information Processing Systems, Cambridge, USA: MIT Press.

Discovery procedure and distribution: Effective Model to language acquisition

—— Starting from ChatGPT language learning

CHEN Baoya, CHEN Yue

Keywords: Marys Room; Meta language; initial concept; discovery procedure

Abstract: The emergence of ChatGPT has attracted much attention, and its most significant progress should be the generation of natural language text. ChatGPT can generate entirely new and legitimate sentences, indicating that it has acquired the rules for generating natural language text. Without dealing with experience, ChatGPT lacks the experience behind vocabulary such as “sour, sweet, bitter, spicy, painful, sad, melancholy,” yet it can still generate legitimate sentences containing these words. This is an important theoretical issue that linguists, artificial intelligence experts, and philosophers need to explain. The initial concepts that determine language rules include word classes, grammatical structural relations, semantic structural relations, pragmatic structural relations, etc. Since ChatGPT automatically learns rules without utilizing these initial concepts, the only thing it can utilize is the distribution of natural segments (tokens) in large-scale text. Acquiring units and rules through the distribution of natural segments is a way of knowing through language rather than through direct experience. The success of ChatGPTs way of knowing through language proves the feasibility of the discovery procedure and its core components, the theory of distribution, proposed by structural linguist Harris. It also provides evidence for the feasibility of linguistic formalism. ChatGPTs learning model based on knowing through language requires a strong storage and computing capability based on big data and supercomputing, which has not yet revealed the human mechanism of language learning based on direct experience. Human learning relies on a weak storage and computing capability based on small data and basic operations. However, the discovery procedure and its theory of distribution relied upon knowing through language are still necessary for human language learning. Both ways of knowing through direct experience and knowing through language are issues that linguists need to address.

【責任編輯 劉文輝】

[收稿日期] 2024-03-10

[作者簡介] 陳保亞,男,北京大學中國語言學研究中心/中文系,主要研究方向為理論語言學,cbyhf@pku.edu.cn。

陳樾,男,佐治亞大學博士研究生,研究方向為拓撲學,yuechenn@outlook.com。

[基金項目] 國家社科基金重大項目“我國民族音樂文化與語言數據集成及共演化研究”(22amp;ZD218)

① 本文部分內容曾經在暨南大學華文學院報告,得到張軍教授、李計偉教授、侯興泉教授和于珊教授指正,特此感謝!

猜你喜歡
語義經驗規則
撐竿跳規則的制定
2021年第20期“最值得推廣的經驗”評選
黨課參考(2021年20期)2021-11-04 09:39:46
數獨的規則和演變
語言與語義
經驗
2018年第20期“最值得推廣的經驗”評選
黨課參考(2018年20期)2018-11-09 08:52:36
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
TPP反腐敗規則對我國的啟示
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
當你遇見了“零經驗”的他
都市麗人(2015年4期)2015-03-20 13:33:22
主站蜘蛛池模板: 国产精品一区在线观看你懂的| 五月婷婷综合在线视频| 日本高清视频在线www色| 91精品福利自产拍在线观看| 91网在线| 亚洲无码91视频| 99视频精品全国免费品| 在线五月婷婷| 成人在线不卡| 欧美亚洲一区二区三区导航| www精品久久| 蜜臀av性久久久久蜜臀aⅴ麻豆 | 国模私拍一区二区| 美女免费精品高清毛片在线视| 亚洲成人77777| 国产一在线| 欧美精品黑人粗大| 亚洲国产欧美目韩成人综合| 伊人AV天堂| 天天综合网站| 国产国语一级毛片在线视频| 欧美亚洲一二三区| 热九九精品| 亚洲第一黄色网| 91热爆在线| 亚洲永久色| 伊人精品视频免费在线| 波多野结衣中文字幕久久| 丁香六月综合网| 福利小视频在线播放| 国产亚洲欧美在线视频| 性网站在线观看| av色爱 天堂网| 青青草原国产| 五月天天天色| 国产丰满成熟女性性满足视频| jizz亚洲高清在线观看| 亚洲天堂首页| 国产嫖妓91东北老熟女久久一| 黄色网址手机国内免费在线观看| 久久福利网| 九九这里只有精品视频| 亚洲精品第五页| 午夜小视频在线| 91探花国产综合在线精品| 亚欧美国产综合| 国内精品久久久久久久久久影视| 91青青在线视频| 日韩国产无码一区| 免费激情网站| 激情影院内射美女| 国产日韩欧美中文| 中文精品久久久久国产网址| 国产福利一区视频| 国产91小视频在线观看 | 国产九九精品视频| 国内视频精品| 国产成熟女人性满足视频| 欧美精品一二三区| 国产黄在线观看| 久久精品亚洲热综合一区二区| 亚洲无码日韩一区| 欧美性精品| 色偷偷综合网| 丁香六月综合网| 2021国产精品自产拍在线| 国产内射一区亚洲| 日本欧美视频在线观看| 亚洲精品天堂在线观看| 91精品国产一区自在线拍| 老司机午夜精品视频你懂的| 国产成人亚洲无码淙合青草| 精品国产污污免费网站| 国产亚洲美日韩AV中文字幕无码成人| 99人体免费视频| 日韩精品一区二区三区中文无码| 亚洲高清无码精品| 婷婷综合缴情亚洲五月伊| 国产福利不卡视频| 亚洲色图欧美| 国产在线自乱拍播放| 国产尹人香蕉综合在线电影|