大語言模型的誕生“在人類歷史上稱得上史無前例的技術(shù)成就”(孫茂松),因為這使機(jī)器真正能跟人自由對話了。先前的自然語言處理—— 具體到漢語就是中文信息處理,其目的就是要讓機(jī)器能理解我們?nèi)怂f的話語,反過來又能生成讓我們?nèi)四芙邮艿脑捳Z,以實現(xiàn)“人機(jī)對話”。為達(dá)到此目的,上世紀(jì)70 年代解決了“字處理”問題;80 年代進(jìn)一步解決了“詞處理”問題,包括分詞和詞性標(biāo)注;90 年代逐步解決了“句處理”問題,包括句子的句法分析和語義分析。處理方法逐步由基于規(guī)則進(jìn)而采取基于規(guī)則和統(tǒng)計相結(jié)合的手段。進(jìn)入21 世紀(jì),進(jìn)一步嘗試研制并使用淺層神經(jīng)網(wǎng)絡(luò)模型,同時開始使用多層感知機(jī)(MLP)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)等“數(shù)據(jù)驅(qū)動”來實施自然語言處理,實際上已綜合使用詞匯分析技術(shù)、語法分析技術(shù)、語義理解技術(shù)、上下文關(guān)聯(lián)分析技術(shù)和深度學(xué)習(xí)算法,以提升中文信息處理的準(zhǔn)確度。然而效果還不是十分理想。應(yīng)該承認(rèn),大語言模型無疑大大超越了自然語言處理已有的成果。
面對這樣的情況,有的語言學(xué)者開始哀嘆自己的研究;而一部分學(xué)者,如辛頓這樣的諾貝爾物理學(xué)獎獲得者,竟對語言學(xué)加以蔑視,甚至大罵喬姆斯基。然而我們必須清醒地認(rèn)識到,大語言模型的“語言”,跟自然語言有著本質(zhì)的不同。
人賴以交際的語言是“自然語言”。自然語言的特點(diǎn)是跟人腦心智相連的,是與人的認(rèn)知相連的。因此自然語言的能力,亦即人說話的能力,“來自人腦的學(xué)習(xí)能力”“來自人腦的語言知識”(詹衛(wèi)東)。自然語言知識的底層是通過“范疇+ 規(guī)則”來處理的。要知道,人類任何一種自然語言都是一個音義結(jié)合且具有適用性的符號系統(tǒng),這個符號系統(tǒng)隨著社會的發(fā)展而不斷發(fā)展變化。在這個音義結(jié)合的符號系統(tǒng)里,必然存在大小不等的音義結(jié)合的符號。自然語言的語法就是根據(jù)交際的需要由小的音義結(jié)合體構(gòu)成大的音義結(jié)合體所遵循的一整套規(guī)則;具體說就是由語素構(gòu)成詞、由詞構(gòu)成短語、由短語構(gòu)成句子、由句子構(gòu)成段落篇章所遵循的一整套規(guī)則。語言工作者為了搞清楚這整套規(guī)則,就不斷地在各個層面上設(shè)立各種各樣的范疇,而每一層面的規(guī)則體現(xiàn)了不同范疇之間的聯(lián)系。
由于自然語言跟人腦心智相關(guān)聯(lián),因此能不斷產(chǎn)出具有原創(chuàng)性的新的語言表達(dá)式。語言跟客觀世界并不直接聯(lián)系,都得經(jīng)由認(rèn)知域。人通過感覺器官感知客觀世界并形成直感形象或直覺;在認(rèn)知域內(nèi)進(jìn)一步抽象,由直感形象或直覺形成意象圖式;在認(rèn)知域內(nèi)借助內(nèi)在語言進(jìn)一步由意象圖式形成具體的概念框架。
具體的概念框架投射到外在語言,尋找最能表示該概念框架的具體的表達(dá)式—— 可能已有的表達(dá)式能用來表達(dá);也可能跟已有的表達(dá)式發(fā)生碰撞,產(chǎn)生新的表達(dá)式,并呈現(xiàn)為具體的句子。這種新的表達(dá)式廣為使用,所蘊(yùn)含的新的語法規(guī)則就由此而產(chǎn)生。
可是,大語言模型的語言是“人造語言”,大語言模型只能從已有的人類文本中獲取“知識”。它不可能產(chǎn)生出原創(chuàng)性的新的表達(dá)式,因為它的所謂“語言數(shù)據(jù)”與語言外部的客觀世界不發(fā)生任何聯(lián)系。因此,大語言模型只是處理自然語言本身的數(shù)據(jù),并不能處理豐富多彩的語言外的信息。
總之,必須清醒認(rèn)識到,大語言模型跟人類的自然語言,其性質(zhì)是迥然不同的。