蔡穎瑩
摘要:隨著1957年《句法結(jié)構(gòu)》的出版,語言學(xué)研究進入了一個全新的時代,即喬姆斯基語言學(xué)革命。而語料庫語言學(xué)自上世紀(jì)50年代以來受到了質(zhì)疑與挑戰(zhàn)。隨后,由于計算機技術(shù)的快速發(fā)展,語料庫語言學(xué)又逐漸走向復(fù)蘇。本文旨在通過分析生成語法與語料庫語言學(xué)在研究理念、研究范圍和研究方法等層面的差異,及其存在的局限,闡述二者的對抗關(guān)系。同時,通過二者在人工智能領(lǐng)域的應(yīng)用,剖析生成語法與語料庫語言學(xué)的聯(lián)結(jié)關(guān)系,從而挖掘其合作潛力。
關(guān)鍵詞:語料庫語言學(xué);生成語法;人工智能;對抗;聯(lián)結(jié)
20世紀(jì)50年代,隨著喬姆斯基理論改變了語言學(xué)研究的實證方向,語料庫語言學(xué)作為語言研究方法受到了普遍質(zhì)疑。長久以來,生成語法和語料庫語言學(xué)被稱為兩種截然不同、相互對立的研究范式。生成語法和語料庫語言學(xué)的發(fā)展也伴隨著雙方的互相批判。本文首先通過分析生成語法和語料庫語言學(xué)在研究范圍、研究方法和研究思路上的差異,以及各自存在的優(yōu)勢和不足,闡述二者的對抗關(guān)系。同時,本文借助生成語法和語料庫語言學(xué)在人工智能領(lǐng)域,尤其是自然語言處理層面的互補,揭示兩者在一定程度上的聯(lián)結(jié)關(guān)系,從而挖掘生成語法和語料庫語言學(xué)的合作潛力。
一、生成語法與語料庫語言學(xué)的對抗
生成語法和語料庫語言學(xué)在研究范圍、研究方法和研究程序上有較大的差異。
1957年喬姆斯基《句法結(jié)構(gòu)》的出版標(biāo)志著生成語法的誕生。生成語法采用數(shù)學(xué)模擬方式來進行語言研究,使用符號和公式來規(guī)定概念,表達(dá)規(guī)則,以嚴(yán)密的方法把語言機制形式化,以達(dá)到用有限的公式來生成無限的句子的目的。生成語法認(rèn)為,語言學(xué)的目的就是要形式化地構(gòu)造出語法的公理系統(tǒng),用以精確地描寫人的語言能力(沈家煊,2004)。生成語法的研究范圍限于人的語言知識或語言能力,而不是語言的運用(徐烈炯 1988)。在研究方法上,生成語法主要采用內(nèi)省法,即語言學(xué)家本人作為資料提供人,將自己的語感作為判斷語言現(xiàn)象歧義、正誤、可接受性等的依據(jù)。在研究程序上,生成語法的研究一般包括九個步驟:定向、選題、發(fā)現(xiàn)、描寫、解釋、推廣、論證、批評、反應(yīng)(Botha 1981)。
語料庫語言學(xué)是當(dāng)代語言學(xué)與計算機科學(xué)交叉的一門新興學(xué)科。它用計算機手段對巨量的語料庫進行高速檢索、統(tǒng)計和展示,以揭示真實語言使用的傾向性規(guī)律及其所傳遞的意義、功能乃至思想意識(何安平 2012)。Hunston(2002)曾指出,語料庫語言學(xué)無論對語言研究還是語言的應(yīng)用研究都具有革命性的作用。語料庫語言學(xué)研究自然語言的使用,在研究范圍上一般涉及語言定量分析、詞典編纂、自然語言理解等領(lǐng)域。在研究方法上,主要包括兩個步驟:對自然語言進行加工、標(biāo)注;對已經(jīng)標(biāo)注好的語料,采用數(shù)理統(tǒng)計的方法進行研究。在研究程序上,語料庫語言學(xué)內(nèi)部有兩個不同的取向:“基于語料庫”和“語料庫驅(qū)動”,兩者在語料庫的性質(zhì)、語料庫建設(shè)以及語料庫分析方面有較大差異。
生成語法和語料庫語言學(xué)在研究理念上的本質(zhì)差異造成了兩者的對抗關(guān)系。喬姆斯基強調(diào)區(qū)分語言能力和語言應(yīng)用兩個概念。他認(rèn)為,語言學(xué)研究的對象應(yīng)當(dāng)是人腦的語言能力而非語言應(yīng)用。喬姆斯基(1965)指出,“任何自然語料都是偏頗的”,由于自然語料會受到各種因素的影響,因而以自然語料為研究對象、對語言應(yīng)用進行分析的語料庫語言學(xué)無法揭示語言本質(zhì)。然而,Sinclair(1991)認(rèn)為,語料庫的研究方法“能夠系統(tǒng)地對大數(shù)量的文本語料進行審視,使我們有可能發(fā)現(xiàn)一些以前從未有機會發(fā)現(xiàn)的語言事實。”同時,生成語法具有高度的抽象性復(fù)雜性。雖然喬姆斯基一再強調(diào)短語結(jié)構(gòu)規(guī)則和轉(zhuǎn)換的簡單化,然而深層結(jié)構(gòu)自身顯得抽象和復(fù)雜。再者,生成語法只能揭示人類語言能力的某些比較狹窄的方面,無法進行語言的歷時研究以及對創(chuàng)造性語言的研究(如詩歌)。最后,生成語法的研究語料存在先驗論的特性。例如在《句法結(jié)構(gòu)》中,喬姆斯基分析了28個自造的例句,這樣的語言數(shù)據(jù)脫離了語境,而語境恰恰在判斷句子是否合乎語法或是否可接受上具有重要作用。
二、生成語法與語料庫語言學(xué)的聯(lián)結(jié):人工智能
(一)人工智能的產(chǎn)生與發(fā)展
對人工智能(Artificial Intelligence,簡稱AI)的正式研究發(fā)軔于1956年的達(dá)特茅斯會議。在此次會議上,約翰·麥卡錫首次提出了“人工智能”這一概念。也是在這次會議上,模擬人的啟發(fā)式搜索問題解決的計算機程序“邏輯理論家”證明了《數(shù)學(xué)原理》中的38條邏輯推理。這一事件被認(rèn)為機器執(zhí)行認(rèn)知任務(wù)的第一個實例,因而1956年也被稱為“AI誕生年”。
20世紀(jì)60年代,人工智能的研究活動越來越受到重視,研究者對求解、博弈、機器視覺、自然語言理解等領(lǐng)域進行了深入研究,人工智能進入高速發(fā)展時期。從20世紀(jì)80年代開始,經(jīng)過六十余年的發(fā)展,原先作為計算機科學(xué)領(lǐng)域分支的人工智能已成為跨領(lǐng)域的交叉學(xué)科,甚至成為人類科技?xì)v史發(fā)展上的本質(zhì)奇點。
(二)生成語法與語料庫語言學(xué)的聯(lián)結(jié)
人工智能的核心在于“智能”和“自動化”,一般根據(jù)“智能”和“自動化”程度將人工智能的發(fā)展分為三個階段即:機器學(xué)習(xí)、機器智能、機器意識。實現(xiàn)“智能”和“自動化”的關(guān)鍵技術(shù)主要包括自然語言處理(Natural Language Processing,簡稱NLP)、自動推理(Automated Reasoning)、機器學(xué)習(xí)(Machine Learning)等。其中,NLP涉及對語言的處理能力,是人工智能的高級表現(xiàn)形式。NLP的實現(xiàn)離不開語言學(xué),尤其是生成語法與語料庫語言學(xué)。
1.生成語法在AI領(lǐng)域的應(yīng)用
在1956年達(dá)特茅斯會議召開的同時,喬姆斯基也在同年提出了生成語法,后發(fā)表在1957年出版的《句法結(jié)構(gòu)》中。生成語法的要領(lǐng)是:某一語言的全部合乎語法的句子是從一組抽象的符號通過一套規(guī)則的操作而生成出來的。當(dāng)今大多數(shù)用計算機來模擬人類認(rèn)知過程的系統(tǒng)都是基于這種“符號操作”模式,整個人腦被視為一部按程序操作符號的巨型計算機。可見,人工智能在發(fā)展初期就吸收了生成語法的觀點。同時,傳統(tǒng)NLP涉及一個重要的步驟,即句法分析。生成語法在這一層面發(fā)揮著無可替代的作用。對于如:“今天晚上去吃火鍋吧,不,去吃燒烤吧。”這樣的句子,機器本身無法意識到句子中自我糾正這一環(huán)節(jié)。那么,利用句法樹便可以對句子成分之間的結(jié)構(gòu)進行簡化,幫助機器在識別和理解句子的過程中,對說話人的真正意圖進行識別。
2.語料庫語言學(xué)在AI領(lǐng)域的應(yīng)用
NLP實現(xiàn)的前提是對機器的大量訓(xùn)練。通過對自然語言進行詞語解析、信息抽取、時間因果、情緒判斷等技術(shù)處理,最終達(dá)到讓計算機“懂得”人類語言認(rèn)知。在NLP的底層數(shù)據(jù)層,語料庫功不可沒。例如,作為NLP基本步驟之一的分詞就需要語料庫技術(shù)的支持:
a.她憑她的才能得到了這份工作。
b.她這樣的人才能夠留下來,是我們的幸運。
在上述兩個句子中,a句中的“才能”明顯是一個詞,而b句中的“人才”和“能夠”卻應(yīng)該分開。在訓(xùn)練分詞模型的過程中,針對固定詞表進行“一刀切”顯然不可取。這時就需要大量的語料輸入幫助模型達(dá)到更好的準(zhǔn)確率。與之類似,現(xiàn)行的聊天機器人、機器翻譯等基于NLP開發(fā)的人工智能,在建設(shè)初期都離不開語料庫作為語義識別的基礎(chǔ)。
總而言之,生成語法和語料庫語言學(xué)在人工智能的發(fā)展過程中均發(fā)揮著重要作用。一方面,基于語料庫訓(xùn)練的機器,學(xué)到的是大概率下最可能的說法,因而生成的語言常常令人感到乏善可陳,丟失了人類語言的創(chuàng)造性。另一方面,純粹依靠生成語法的人工智能,雖然能生成無限多的句子,卻無法保證句子的正確性。由此可見,生成語法和語料庫在人工智能領(lǐng)域,尤其是NLP技術(shù)層面,存在互補的作用。
三、結(jié)論
本文通過分析生成語法和語料庫語言學(xué)在研究范圍、研究方法和研究思路上的差異,解釋了生成語法和語料庫語言學(xué)的對抗關(guān)系。同時,本文以生成語法和語料庫語言學(xué)在人工智能領(lǐng)域,尤其是自然語言處理層面的互補關(guān)系,厘清了兩者的聯(lián)結(jié)關(guān)系。因而,生成語法和語料庫語言學(xué)并非傳統(tǒng)觀點中單純對立關(guān)系,而是既對立又統(tǒng)一的復(fù)雜關(guān)系,共同寓于語言學(xué)研究中。
事實上,許多語料庫語言學(xué)家積極投入語言理論的研究,而許多生成語法學(xué)家也十分關(guān)注作為理論研究基礎(chǔ)的數(shù)據(jù)。而其在人工智能領(lǐng)域的聯(lián)結(jié)或?qū)㈩A(yù)示著生成語法和語料庫語言學(xué)將在更多領(lǐng)域碰撞出意想不到的火花。
參考文獻:
[1]Botha,R.The Conduct of Linguistic Inquiry[M].The Hague:Mouton,1981.
[2]Chomsky,N.Aspect of the Theory of Syntax[M].Massachusetts:The MIT Press,1965.
[3]Hunston,S.Corpora in Applied Linguistics[M].Cambridge:Cambridge University Press,2002.
[4]Sinclair,J.Corpus,Concordance,Collocation[M].Oxford:Oxford University Press,1991.
[5]何安平.語料庫語言學(xué)[J].中國外語,2012(5):19.
[6]沈家煊.人工智能中的“聯(lián)結(jié)主義”和語法理論[J].外國語,2004(3):2-9.
[7]王琦.語料庫語言學(xué)的發(fā)展及其與生成語法的關(guān)系[J].西北師大學(xué)報(社會科學(xué)版),2007(6):110-114.
[8]徐烈炯.生成語法理論[M].上海:上海外語教育出版社,1988.
[9]徐愚.機器與語言——對人工智能語義問題的探尋[D].北京:中共中央黨校,2016.