自然語言處理(Natural Language Processing)是一門融語言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)于一體的學(xué)科,它以語言為對象,利用計(jì)算機(jī)技術(shù)來分析、理解和處理自然語言。可以說,語言文本和對話在各個(gè)層面上所廣泛存在的歧義性或多義性(ambiguity),給自然語言處理帶來了很大的困難。馮志偉先生是我國計(jì)算語言學(xué)的開拓者之一,出版、發(fā)表了一系列與自然語言處理相關(guān)的論著。他的《計(jì)算語言學(xué)基礎(chǔ)》
、《數(shù)學(xué)與語言》
、《自然語言處理綜論》
、《自然語言處理簡明教程》
、《中文信息處理與漢語研究》
等專(譯)著,在語言學(xué)界產(chǎn)生了深遠(yuǎn)影響,有力地推動了國內(nèi)自然語言處理的發(fā)展。我們從學(xué)術(shù)之路、知識圖譜、智能化、自動切詞、發(fā)展方向等方面,就自然語言處理的幾個(gè)關(guān)鍵性問題,對馮先生進(jìn)行了專門訪談。
徐琴(以下簡稱“徐”):馮先生,您好!首先非常感謝您接受我們的采訪。您作為我國計(jì)算語言學(xué)和自然語言處理研究的開拓者之一,是世界上第一個(gè)“漢語到多種外語機(jī)器翻譯系統(tǒng)”的研制者。那么,當(dāng)初是由于什么原因讓您棄理從文,毅然決定轉(zhuǎn)向語言學(xué)的呢?您認(rèn)為語言學(xué)最讓您著迷的是什么?
馮志偉(以下簡稱“馮”):今天是2022年4月15日,恰好是我83歲生日。我從事計(jì)算語言學(xué)和自然語言處理的研究已經(jīng)有60多年了。
1957年高中畢業(yè)時(shí),同班同學(xué)送給我一本書:蘇聯(lián)科學(xué)院院士、著名地球化學(xué)家費(fèi)爾斯曼的《趣味地球化學(xué)》
,書中描述了費(fèi)爾斯曼使用地球化學(xué)方法在可拉半島找到鉀鹽礦,從而解決了蘇聯(lián)社會主義建設(shè)的燃眉之急的事跡,給了我很大的鼓舞。當(dāng)時(shí)地球化學(xué)是國家急需的尖端學(xué)科,我看了這本書,對地球化學(xué)產(chǎn)生了濃厚的興趣,決心學(xué)習(xí)費(fèi)爾斯曼,為祖國找到社會主義建設(shè)所需要的礦藏。于是我毅然報(bào)考了北京大學(xué)地球化學(xué)專業(yè)。后來,果然以優(yōu)異成績考入北京大學(xué)地球化學(xué)專業(yè)學(xué)習(xí)。
在地球化學(xué)專業(yè),我學(xué)習(xí)了高等數(shù)學(xué)、普通物理學(xué)、普通化學(xué)、礦物學(xué)、結(jié)晶學(xué)等課程,打好了自然科學(xué)的基礎(chǔ)。我特別喜歡做數(shù)學(xué)題,思考復(fù)雜的數(shù)學(xué)問題。我在一首詩里寫道:
數(shù)學(xué)就像磁石一樣,
吸引我走進(jìn)邏輯的殿堂,
7.有窮多級列舉法。這種方法把現(xiàn)代漢語中的全部詞分為兩大類:一類是開放詞,如名詞、動詞、形容詞等,它們的成員幾乎是無窮的;另一類是閉鎖詞,如連詞、助詞、嘆詞等,它們的成員是可以一一枚舉的。切詞的時(shí)候,先切出具有特殊標(biāo)志的字符串,如阿拉伯?dāng)?shù)字、拉丁字母等,再切出可枚舉的閉鎖詞,最后再逐級切出開放詞。這是一種完全立足于語言學(xué)的切詞方法,在計(jì)算機(jī)上實(shí)現(xiàn)起來還有很大難度。
我似乎看到了自己思想的光芒。
我自幼就初通英語,能閱讀英語的書籍,在北大圖書館的英文版《無線電工程師協(xié)會會刊:信息論》(I.R.E.Transaction of Information Theory)雜志上,我讀到喬姆斯基(Noam Chomsky)在1956年發(fā)表的論文《語言描寫的三個(gè)模型》(Three models for the description of language)。這篇文章是研究語言的,可是卻使用了馬爾可夫鏈(Markov Chain)這樣的數(shù)學(xué)方法,喬姆斯基運(yùn)用數(shù)學(xué)方法,為自然語言建立了有限狀態(tài)模型、短語結(jié)構(gòu)模型和轉(zhuǎn)換模型三個(gè)不同的模型,并且分析了這些模型對于自然語言的描述能力和解釋能力。
喬姆斯基使用的這種數(shù)學(xué)方法激發(fā)了我的好奇心,使我對語言學(xué)中的形式化方法產(chǎn)生了濃厚興趣,萌發(fā)了強(qiáng)烈的探索愿望。接著,我又懷著興奮的心情通讀了喬姆斯基在1957年發(fā)表的《句法結(jié)構(gòu)》英文本,對語言學(xué)的興趣愈發(fā)濃厚了。于是我向?qū)W校教務(wù)處誠懇地表達(dá)了自己想改行學(xué)習(xí)語言學(xué)的志向。1959年9月,經(jīng)北大教務(wù)處批準(zhǔn),我棄理學(xué)文,轉(zhuǎn)入北京大學(xué)語言學(xué)專業(yè)(07591班)學(xué)習(xí),從一年級學(xué)起,學(xué)號是5705006。這樣,我就從理科的大學(xué)三年級轉(zhuǎn)到文科的一年級,降了兩級,成為了一個(gè)文科生。
當(dāng)然,理科不管是在科研經(jīng)費(fèi)上,還是在就業(yè)前景上,都要比文科好得多。但是我當(dāng)時(shí)根本沒有考慮這些功利方面的問題,完全是出于用數(shù)學(xué)方法研究語言的興趣,被強(qiáng)烈的興趣所驅(qū)動。可以說,棄理學(xué)文是我人生的重要轉(zhuǎn)折。這樣的轉(zhuǎn)折完全是出于對語言研究的好奇心,并沒有任何的功利目的,可謂是好奇之心戰(zhàn)勝了功利之心。
但是,在當(dāng)時(shí)的條件下,這樣的轉(zhuǎn)折需要面對很多問題。
這時(shí),那些少男少女也喝得差不多了,吉爾金娜顯得有些掃興,端著一杯酒說:“江,你太不給面子了,跑到哪里了?今天為我做了這么多好食品,我得好好敬你一杯。”江大亮說:“我出去有點(diǎn)事兒。”吉爾金娜不依不饒,江大亮只好一飲而盡,將那高腳杯的酒全都喝光了。柯察金也端著一杯酒過來了,舌頭有些僵硬地說:“江,你太神奇了,過去吉爾金娜說你很有魅力,我還表示懷疑,今天我是親眼見到了,你真的好神奇,很有魅力。”江大亮被俄羅斯那些少男少女團(tuán)團(tuán)圍住,狂轟爛炸,沒過一會的工夫就喝得有些暈暈乎乎。
礦區(qū)內(nèi)侵入巖不發(fā)育,在礦區(qū)中部見有一輝綠巖脈,巖脈長度為700m,厚度為4m,產(chǎn)狀354°~15°∠55°~70°,被F3、F4錯(cuò)斷。本次工作在Ⅰ號礦體PD3050中段穿脈中發(fā)現(xiàn)綠泥石化陽起石化閃長玢巖脈(圖4)。
第一,我從理科轉(zhuǎn)到文科,目的是在于用數(shù)學(xué)方法研究語言,用數(shù)學(xué)的邏輯之美來揭示語言的結(jié)構(gòu)之妙。這在當(dāng)時(shí)看來是非常奇特的想法,創(chuàng)新性太強(qiáng)了,難以得到別人的理解,必定會遇到重重的阻力和冷漠的白眼,容易被人誤解為“有資產(chǎn)階級名利思想”。
第二,我在中文系學(xué)習(xí)中文的同時(shí)還學(xué)習(xí)數(shù)學(xué),必定要比別人花更多的時(shí)間,難以騰出時(shí)間來關(guān)心政治,容易被人誤解為“走白專道路”。
第三,為了了解國外用數(shù)學(xué)方法研究語言的信息,我在中文系學(xué)習(xí)中文的同時(shí)還要學(xué)習(xí)外文,需要經(jīng)常閱讀各種外文書,容易被人誤解為“崇洋媚外”。
這些問題,開始轉(zhuǎn)到中文系時(shí)我并沒有想到,只是憑著用數(shù)學(xué)方法研究語言的好奇心努力學(xué)習(xí),但是隨著時(shí)間的推移,這些問題愈演愈烈,時(shí)時(shí)困擾著我。中文系的同學(xué)們不理解我,受到了同學(xué)們的鄙夷和白眼,日子越來越難過。我陷入了煢煢孑立、形影相吊的困境。
我曾經(jīng)想打退堂鼓,回到理科去,但是,我想起意大利詩人但丁(Dante Alighieri)的話:“走你自己的路,不要管他人的毀譽(yù)!”這句話給了我無窮的力量,鼓舞著我,讓我在眾人的白眼中堅(jiān)持下去。轉(zhuǎn)入中文系之后,我除了學(xué)好學(xué)校規(guī)定的中文系各門課程之外,還進(jìn)一步苦練英語,大量閱讀外文的文學(xué)作品。
[8]蘭平:《漢學(xué)“典范大轉(zhuǎn)移”與“新漢學(xué)”的來龍去脈——陳玨教授訪談錄》,《文藝研究》2014年第10期。
這個(gè)時(shí)期,我?guī)煆耐趿Α⒅斓挛酢⒘譅c、高名凱、岑麒祥、周有光等著名語言學(xué)家,學(xué)習(xí)了語言學(xué)的基礎(chǔ)知識。王力講授“古代漢語”“漢語史”“中國語言學(xué)史”,朱德熙講授“現(xiàn)代漢語研究”,林燾講授“語音學(xué)研究”,高名凱講授“普通語言學(xué)”,岑麒祥講授“西方語言學(xué)史”,周有光講授“漢字改革概論”。我認(rèn)真學(xué)習(xí)這些語言學(xué)課程,學(xué)習(xí)成績優(yōu)異。我試圖把自己由一個(gè)理科學(xué)生轉(zhuǎn)變?yōu)橐粋€(gè)會用人文科學(xué)方法來思考的文科學(xué)生,把人文科學(xué)的知識與自然科學(xué)的知識結(jié)合起來。
為了運(yùn)用數(shù)學(xué)方法研究語言,我除了學(xué)習(xí)語言專業(yè)的課程之外,同時(shí)也學(xué)習(xí)數(shù)學(xué)分析、集合論、數(shù)理邏輯、實(shí)變函數(shù)、復(fù)變函數(shù)、微分方程等數(shù)學(xué)系的課程。我在課余做完了蘇聯(lián)數(shù)學(xué)家吉米多維奇《數(shù)學(xué)分析習(xí)題集》
中的4000多道數(shù)學(xué)題,練就了解決復(fù)雜數(shù)學(xué)問題的能力。我的這些表現(xiàn)不合時(shí)俗,在同學(xué)中頗有微詞。
同時(shí)學(xué)習(xí)文科、理科和多門外語幾乎占據(jù)了我的全部時(shí)間,體育鍛煉也要用去一定時(shí)間。我實(shí)在沒有更多的時(shí)間來關(guān)心政治了,這在當(dāng)時(shí)是很嚴(yán)重的問題,受到了很多指摘和批評。有人指摘我是“孔子學(xué)生妄圖繼承牛頓事業(yè)”,有人批評我“走白專道路”,“有資產(chǎn)階級名利思想”,“崇洋媚外”。實(shí)際上,我只是出于科學(xué)的好奇心才這樣專心致志,并沒有像別人想得那么惡劣。我根本就沒有功利的動機(jī)!但是,在當(dāng)時(shí)的氣氛下,我是有口難辯,只好忍氣吞聲,夾著尾巴過日子。
1964年,我考取了岑麒祥教授的研究生,學(xué)號是6407903,終于可以名正言順地用數(shù)學(xué)方法來研究語言了,岑麒祥教授也同意我的研究生畢業(yè)論文為“數(shù)學(xué)方法在語言學(xué)中的應(yīng)用”。可是,1966年5月爆發(fā)了“文化大革命”,我不可能再繼續(xù)進(jìn)行這樣的科學(xué)研究了。1968年,我被北京大學(xué)掃地出門,先是到天津河?xùn)|區(qū)教初中,后來回到了故鄉(xiāng)昆明教中學(xué)。昆明地處邊陲,在那里,北大老師們教給我的那些高大上的語言學(xué)知識基本上沒有什么用處,我只好改行當(dāng)了一名物理教師,聊以維持生計(jì)。我徹底地離開了語言學(xué)的隊(duì)伍。
NELL還可以使用知識圖譜進(jìn)行簡單的邏輯推理。例如,從知識圖譜中知道,“Maple Leafs”球隊(duì)所在的城市(home town)是多倫多,而多倫多所在的國家(country)是加拿大,因此,可以推論出這個(gè)球隊(duì)所在的國家也是加拿大。其邏輯推理過程如下:
家訪是教師、家長、學(xué)生之間的紐帶,是學(xué)校、家庭、社會之間的橋梁,在學(xué)校教育中發(fā)揮著不可替代的作用。事實(shí)證明,家庭訪視是有效的教育措施。隨著時(shí)代的變遷,一種新的家庭交流方式出現(xiàn)了。它不僅是家訪的輔助手段,而且是家訪的補(bǔ)充。它已經(jīng)成為學(xué)校、家庭和社會三結(jié)合教育的一種新方式。學(xué)校認(rèn)識到家長在監(jiān)督、理解、宣傳和協(xié)調(diào)學(xué)校日常管理中的作用,本校因勢利導(dǎo)地響應(yīng)家長需求,開放校園,鼓勵并歡迎家長的參與學(xué)校學(xué)習(xí)和生活,本校采取教師主動家訪與請家長到學(xué)校來校訪的方式,加強(qiáng)了家校溝通,優(yōu)化了教育方式。
知識圖譜用結(jié)點(diǎn)(vertex)表示語義符號,用邊(edge)表示符號與符號之間的語義關(guān)系,由此構(gòu)成了一種通用的語義知識形式化描述框架。知識圖譜中的三元組用(h,r,t)表示,其中,h表示“頭實(shí)體(head)”,r表示“關(guān)系(relation)”,t表示“尾實(shí)體(tail)”。知識圖譜的三元組結(jié)構(gòu)其實(shí)非常簡單,可以表示為:(head,relation,tail);用首字母表示就是:(h,r,t)。這種表示方法簡單、明確、有效。
徐:您的學(xué)術(shù)之路確實(shí)是走得無比坎坷,但也真是非同尋常。在那樣艱辛的環(huán)境中,您仍然保持一顆向?qū)W之心,能靜下心來從事學(xué)術(shù)研究,真是令人欽佩!您無疑是我們年輕人學(xué)習(xí)的楷模!在現(xiàn)代社會,技術(shù)飛速發(fā)展,網(wǎng)絡(luò)媒體已經(jīng)滲透到我們生活的方方面面。人類進(jìn)入了大數(shù)據(jù)時(shí)代,讓計(jì)算機(jī)在這些龐雜的大數(shù)據(jù)中有效提取信息,建立知識庫,為用戶提供精準(zhǔn)的信息服務(wù),已成為信息服務(wù)的核心目標(biāo)。可以說,知識圖譜(knowledge graph)的出現(xiàn),有助于計(jì)算機(jī)實(shí)現(xiàn)這一目標(biāo)。不過,在我們的漢語中卻有很多深層的語義關(guān)系,僅僅依靠知識圖譜中傳統(tǒng)的知識元素(實(shí)體、關(guān)系、屬性)抽取技術(shù)和方法是遠(yuǎn)遠(yuǎn)不夠的。那么,您認(rèn)為,在知識抽取中,對于這些隱含關(guān)系的抽取,計(jì)算機(jī)應(yīng)如何實(shí)現(xiàn)呢?
馮:早在50年前,1972年的文獻(xiàn)中就出現(xiàn)了“知識圖譜(knowledge graph)”這個(gè)術(shù)語。2012年5月,谷歌公司(Google)明確提出了知識圖譜的概念,并構(gòu)建了一個(gè)大規(guī)模的知識圖譜,開啟了知識圖譜研究之先河。
我這一生過得很辛苦,由理科轉(zhuǎn)到文科,又從文科轉(zhuǎn)到理科,最后又從理科轉(zhuǎn)回到文科。歲月蹉跎,青春難再,一生中的很多寶貴時(shí)間,都在苦苦的掙扎中煎熬。剛?cè)氡本┐髮W(xué)的時(shí)候,我還是一個(gè)18歲的幼稚青年,而今我已經(jīng)是83歲的垂垂老者,只能發(fā)揮余熱了。現(xiàn)在你們年輕人處于開明盛世,不會再重蹈我的覆轍了。我真羨慕你們!
在計(jì)算機(jī)中,結(jié)點(diǎn)和邊這樣的符號,都可以通過“符號具化(symbol grounding)”的方式,來表征物理世界和認(rèn)知世界中的對象,并作為不同個(gè)體對認(rèn)知世界中信息、知識進(jìn)行描述和交換的橋梁。知識圖譜這種使用統(tǒng)一形式的知識描述框架,便于知識的分享和學(xué)習(xí),因此,受到了自然語言處理研究者的普遍歡迎。
綜上所述,建筑行業(yè)隨著我國的經(jīng)濟(jì)發(fā)展,也得到了很大程度上的發(fā)展,并且企業(yè)之間的競爭越來越激烈,因此,為了不斷地促進(jìn)建筑行業(yè)的發(fā)展,要不斷完善其中的應(yīng)用技術(shù),保障施工工作的順利進(jìn)行。
例如,美國卡內(nèi)基梅隆大學(xué)基于“Read the Web”項(xiàng)目研制出NELL知識圖譜,NELL的英文含義就是“Never-Ending Language Learning”(永無止境的語言學(xué)習(xí))。NELL每天不間斷地執(zhí)行兩項(xiàng)任務(wù):自動閱讀(Reading)和自動學(xué)習(xí)(Learning)。自動閱讀任務(wù)是從Web文本中獲取知識,并把閱讀到的知識添加到NELL的內(nèi)部知識庫中;自動學(xué)習(xí)任務(wù)是使用機(jī)器學(xué)習(xí)算法獲取新的知識,鞏固和擴(kuò)展對于知識的理解。NELL可以抽取大量的三元組,并標(biāo)注出所抽取的迭代輪數(shù)、時(shí)間和置信度,還可以進(jìn)行人工校驗(yàn)。NELL系統(tǒng)從2010年開始機(jī)器自動學(xué)習(xí),經(jīng)過半年的學(xué)習(xí)之后,總共抽取了35萬條實(shí)體關(guān)系三元組。經(jīng)過人工標(biāo)注和校正之后,進(jìn)一步抽取更多的事實(shí),知識抽取的正確率可以達(dá)到87%。這里不妨以圖1為例加以說明:
在OPNET Modeler仿真環(huán)境下,對科文學(xué)院現(xiàn)有校園網(wǎng)在開通視頻點(diǎn)播系統(tǒng)前后分別從網(wǎng)絡(luò)時(shí)延、數(shù)據(jù)庫應(yīng)用和HTTP應(yīng)用的響應(yīng)時(shí)間、主干鏈路排隊(duì)時(shí)延、主干鏈路吞吐量及利用率等多個(gè)網(wǎng)絡(luò)性能指標(biāo)進(jìn)行了分析比較,得出主干鏈路速率是科文學(xué)院現(xiàn)有校園網(wǎng)性能的“瓶頸”,為擬定網(wǎng)絡(luò)升級改造方案提供了客觀的定量依據(jù).根據(jù)科文學(xué)院校園網(wǎng)的實(shí)際情況,提出了采用鏈路聚合為主要手段的校園網(wǎng)升級改造方案,仿真結(jié)果顯示校園網(wǎng)的性能有了較大的提升.由此得出結(jié)論:方案切實(shí)可行,能夠達(dá)到校園網(wǎng)升級改造的預(yù)期目標(biāo).

圖1是NELL抽取的有關(guān)“Maple Leafs(楓葉)”球隊(duì)的知識片段,該片段由很多三元組構(gòu)成。例如:
(Maple Leafs,play,hockey)
(Maple Leafs,won,Stanley Cup)
(Maple Leafs,hired,Wilson)
(Maple Leafs,member,Toskals)
Boosting算法問題在于更多關(guān)注不能正確分類樣本數(shù)據(jù),對于邊界樣本會導(dǎo)致權(quán)重失衡,產(chǎn)生“退化問題”。在Boosting基礎(chǔ)上使用指數(shù)權(quán)重產(chǎn)生用于二值分類的AdaBoost算法[28,29]。
(Maple Leafs,member,Sundin)
閱讀推廣視角下的品牌品質(zhì)是指閱讀推廣的活動質(zhì)量。品牌認(rèn)知的評估首先要設(shè)計(jì)品質(zhì)評估要素,比如活動設(shè)計(jì)的形式是否具有創(chuàng)意性、閱讀內(nèi)容是否吸引讀者、活動是否讓讀者有所獲等。然后通過問卷等不同的評估方式和多樣的評估渠道進(jìn)行讀者評估。值得注意的是,會存在一些因素因讀者個(gè)體的個(gè)性、愛好、自身素養(yǎng)程度等不同對品質(zhì)的感受不同,所以品質(zhì)認(rèn)知評估結(jié)果只是一個(gè)方向性的評估成果。
(Maple Leafs,home town,Toronto)
(Toronto,country,Canada)
從這些三元組中可以知道,“Maple Leafs”這個(gè)球隊(duì)是打(play)曲棍球(hockey)的;這個(gè)球隊(duì)曾經(jīng)獲獎(won),得過Stanley獎杯(Stanley Cup);這個(gè)球隊(duì)的雇主(hired)是威爾森(Wilson);這個(gè)球隊(duì)的成員(member)有托斯卡爾思(Toskals)和孫定(Sundin);這個(gè)球隊(duì)所在的城市(home town)是多倫多(Toronto);而多倫多所在的國家(country)是加拿大(Canada)。這就構(gòu)成了一個(gè)非常復(fù)雜的知識系統(tǒng)。
粉碎“四人幫”后,我有機(jī)會于1978年考入中國科學(xué)技術(shù)大學(xué)研究生院學(xué)習(xí)理科;接著,又公派到法國格勒諾布爾理科醫(yī)科大學(xué)應(yīng)用數(shù)學(xué)研究所留學(xué)。我在法國研制了世界上第一個(gè)把漢語自動地翻譯成法語、英語、日語、俄語和德語五種外語的機(jī)器翻譯系統(tǒng)。可以說,國家改革開放政策的實(shí)施,使得我有機(jī)會回到科學(xué)研究崗位,成為一名軟件工程師。1985年,由于國家的需要,我被調(diào)入語言文字應(yīng)用研究所,繼續(xù)從事語言學(xué)研究。
在智能對話系統(tǒng)中,當(dāng)用戶提問:“馮志偉出生的時(shí)候,喬姆斯基的年齡有多大?”對于這樣的問題,僅僅依靠直接查詢知識圖譜中的三元組,是很難回答的,它屬于隱含的知識,必須進(jìn)行邏輯推理才可能獲得。
→(Maple Leafs,country,Canada)在上面的邏輯推理式子中,“∩”是邏輯合取符號,表示“和”的意思。
NELL通過機(jī)器學(xué)習(xí)的方式以構(gòu)建知識圖譜,從而可以持續(xù)不斷地從網(wǎng)絡(luò)上獲取資源來發(fā)現(xiàn)事實(shí)并總結(jié)規(guī)則,其中,就涉及到命名實(shí)體識別、同名排歧、智能推薦等自然語言處理的技術(shù)。
如果我們具有了數(shù)以億計(jì)的這樣的知識圖譜的三元組知識,還可以使用它們進(jìn)行邏輯推理,從而獲得一些隱含的知識。例如,如果我們有了關(guān)于馮志偉和喬姆斯基出生年代的三元組:
(馮志偉,出生年代,1939)
(喬姆斯基,出生年代,1928)
(Maple Leafs,home town,Toronto)∩(Toronto,country,Canada)
如果有了知識圖譜的上述三元組信息,根據(jù)馮志偉出生時(shí)喬姆斯基的年齡應(yīng)當(dāng)?shù)扔隈T志偉的出生年代減去喬姆斯基的出生年代這樣的數(shù)學(xué)規(guī)律,即:1939-1928=11,我們就可以根據(jù)知識圖譜推論出:馮志偉出生時(shí)喬姆斯基的年齡應(yīng)當(dāng)是11歲。這樣,我們就可以從知識圖譜中存儲的舊知識中推論出新的、隱含的知識,從而回答“馮志偉出生的時(shí)候,喬姆斯基的年齡有多大?”這樣很難直接在知識圖譜中查詢的問題。由此可見,知識圖譜的三元組結(jié)構(gòu)化信息不僅能夠存儲知識,還可以進(jìn)行邏輯推理,從而產(chǎn)生出新的、隱含的知識,它確實(shí)是人類知識的寶庫,是人工智能發(fā)展的階梯,是非常有價(jià)值的。
目前,知識圖譜仍處于初級階段,如何自動地使用知識圖譜的方法來獲取自然語言中隱含的各種語法、語義、語用知識,還需要我們進(jìn)一步探討。
徐:也就是說,知識圖譜是一種描述知識的圖,從不同模態(tài)(語音、圖片、文本)的自然語言(人類使用的語言)中,抽取出有意義的知識,并轉(zhuǎn)換成計(jì)算機(jī)理解的形式,從而使計(jì)算機(jī)具備一定的推理能力。不得不令人感嘆,當(dāng)代社會的技術(shù)發(fā)展如此迅速,自然語言處理也邁向了新的征程。那么,您認(rèn)為,在將來的自然語言處理中,計(jì)算機(jī)能否像人類一樣發(fā)展出邏輯推理能力?如果可以做到的話,您認(rèn)為需要我們做哪些方面的努力?
8.聯(lián)想—回溯法(Association—Backtracking Method,簡稱“AB法”)。這種方法要求建立三個(gè)知識庫:特征詞詞庫、實(shí)詞詞庫和規(guī)則庫。首先,將待切分的漢字字符串序列按特征詞詞庫分割為若干子串,子串可以是詞,也可以是由幾個(gè)詞組合而成的詞群;然后,利用實(shí)詞詞庫和規(guī)則庫,將詞群再細(xì)分為詞。在切詞時(shí),需要運(yùn)用一定的語法知識,建立聯(lián)想機(jī)制和回溯機(jī)制。聯(lián)想機(jī)制由聯(lián)想網(wǎng)絡(luò)和聯(lián)想推理構(gòu)成,其中,聯(lián)想網(wǎng)絡(luò)描述每個(gè)虛詞的構(gòu)詞能力,聯(lián)想推理利用相應(yīng)的聯(lián)想網(wǎng)絡(luò)來判定所描述的虛詞究竟是單獨(dú)成詞還是作為其他詞中的構(gòu)詞成分。回溯機(jī)制則主要用于處理歧義句子的切分。聯(lián)想—回溯法雖然增加了算法的時(shí)間復(fù)雜度和空間復(fù)雜度,但是這種方法的切詞正確率較高,是一種行之有效的方法。
①大量的觀測數(shù)據(jù)表明,全球氣候正在發(fā)生以全球變暖為主要特征的變化;這種變化除了氣候系統(tǒng)的本身自然周期變化外,人類活動排放的大量溫室氣體是氣候變化的重要原因。
花橋板栗:于2016年9月采收于湘潭市雨湖區(qū)云湖橋鎮(zhèn)金湖良種板栗示范推廣基地,要求外觀品質(zhì)均一、成熟度適中、無病蟲害。

目前,基于神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的自然語言處理,基本上還是在系統(tǒng)1的基礎(chǔ)上進(jìn)行的,主要依靠大規(guī)模或者超大規(guī)模的數(shù)據(jù)來支持,有的自然語言處理系統(tǒng)的數(shù)據(jù)參數(shù)已經(jīng)到達(dá)數(shù)千億之多,這樣的自然語言處理系統(tǒng)具有很強(qiáng)大的處理能力。例如,根據(jù)最近WMT(國際機(jī)器翻譯評測會議)的評測結(jié)果,英漢神經(jīng)機(jī)器翻譯系統(tǒng)對于一般文本的翻譯正確率已經(jīng)達(dá)到83%以上,基本上可以滿足普通用戶的要求了。可惜的是,系統(tǒng)1的效率雖然較高,但是它的可解釋性很差,基本上還是一個(gè)黑箱(black box)。我們對于系統(tǒng)1的研究,還處于“知其然而不知其所以然”的水平。
今后,自然語言處理研究需要從系統(tǒng)1的深度學(xué)習(xí)發(fā)展到系統(tǒng)2的深度學(xué)習(xí),實(shí)現(xiàn)系統(tǒng)2的邏輯分析和推理功能。這除了需要大規(guī)模數(shù)據(jù)(big data)的支持之外,更需要豐富知識(rich knowledge)的支持,這些知識不僅包括語言學(xué)知識(linguistic knowledge),還包括日常生活中的普通常識(common knowledge)。系統(tǒng)2的知識如何融入系統(tǒng)1中,是一個(gè)相當(dāng)復(fù)雜的問題,目前還沒有找到有效的途徑,上文中所提到的知識圖譜這一形式化的方法,是我們目前正在探索的一個(gè)可行的途徑。可以說,語言學(xué)家有必要學(xué)習(xí)知識圖譜,更新自己的知識觀念,把知識圖譜應(yīng)用到語言的研究中,或許會有所突破。
徐:這樣看來,如果說語言是人類學(xué)習(xí)、思維的一個(gè)工具,那么,知識圖譜則是計(jì)算機(jī)學(xué)習(xí)的工具。在自然語言信息處理中,不僅僅包括對于信息的抽取,自動分詞也是重要的組成部分:語言信息處理必須以詞為基本單位,然后才能進(jìn)行句法、語義分析。英語等西方語言的詞與詞之間在書面上是用空格分開的,一般不存在分詞問題。不過,由于漢語自身的獨(dú)特性,在機(jī)器自動分詞上存在著很大的困難。在漢語中有這樣一類現(xiàn)象:字段AB,組合起來是詞,分開也是詞。比如,“她將來想當(dāng)老師”中的“將來”是一個(gè)詞,不能切分;在“她將來北京”中,“將來”卻應(yīng)該切分為“將/來”。那么,您認(rèn)為,在語言信息處理時(shí),可以采取哪些措施來解決這種有歧義的切分字段?在中文信息處理領(lǐng)域,關(guān)于自動分詞技術(shù)還有哪些可以采用的方法呢?
馮:這里首先需要申明的是,我并不喜歡使用“自動分詞”這個(gè)術(shù)語,而更愿意使用“自動切詞”這個(gè)術(shù)語。因?yàn)椤胺衷~”容易與英語中的“participle”這個(gè)術(shù)語混淆,而participle是英語中非定式動詞的一種形式。participle既有動詞的作用,又可起形容詞的作用,如“現(xiàn)在分詞(present participle)”“ 過 去 分 詞(past participle)”等,與我們所討論的“自動切詞(automatic word segmentation)”是完全不同的概念。
你所說的“將來”這個(gè)字段,屬于多義組合型歧義切分字段,這種歧義切分字段是由詞與詞之間的串聯(lián)組合產(chǎn)生的。從形式上說,在字段S=a
…a
b
…b
中,由于a
…a
、b
…b
和S三者都能分別成詞,字串a(chǎn)
…a
與字串b
…b
形成了串聯(lián)組合,就會產(chǎn)生歧義切分。“將來”“將”“來”三者都可以分別成詞,因而產(chǎn)生歧義。對于這樣的多義組合型歧義切分字段,可以根據(jù)句法知識進(jìn)行切分。例如,在“她將來想當(dāng)老師”這個(gè)句子中,動詞“想當(dāng)”是中心動詞,因此,前面的“將來”應(yīng)當(dāng)是表示時(shí)間的時(shí)間詞,不能切分。而在句子“她將來北京”中,中心動詞是“來”,前面的“將”是表示時(shí)態(tài)的副詞,因此,應(yīng)當(dāng)切分為“將/來”。根據(jù)這些句法知識,不難進(jìn)行正確的判定。此外,如“馬上”這個(gè)字段可以切分為“馬上”“馬”“上”,三者都可以分別成詞,也是一種多義組合型歧義切分字段,同樣會產(chǎn)生切分歧義。至于在語言信息處理時(shí),如何解決這種有歧義的切分字段,可參看我所撰寫的《自然語言處理中的歧義消解方法》
一文。
從上世紀(jì)80年代開始,我國學(xué)者就對漢語書面文本的自動切詞進(jìn)行了深入探討。關(guān)于這一問題,可參看奉國和、鄭偉的《國內(nèi)中文自動分詞技術(shù)研究綜述》
。歸納起來看,國內(nèi)學(xué)者提出的方法主要有以下幾種:
1.最大匹配法(Maximum Matching Method,簡稱“MM法”)。在計(jì)算機(jī)中存放一個(gè)已知的詞表,這個(gè)詞表稱為“底表”;從被切分的語料中,按照給定的方向順序截取一個(gè)定長的字符串,通常為6至8個(gè)漢字,這個(gè)字符串的長度稱為“最大詞長”。把這個(gè)具有最大詞長的字符串與底表中的詞相匹配,如果匹配成功,就可以確定這個(gè)字符串為詞,計(jì)算機(jī)程序的指針向后移動,與給定最大詞長相應(yīng)個(gè)數(shù)的漢字繼續(xù)進(jìn)行匹配;否則,則把該字符串逐次減一,再與底表中的詞進(jìn)行匹配,直到成功為止。MM法的原理簡單,易于在計(jì)算機(jī)上實(shí)現(xiàn),時(shí)間復(fù)雜度也比較低。不過,最大詞長的長度較難確定,如果定得太長,則匹配時(shí)花費(fèi)的時(shí)間就多,算法的時(shí)間復(fù)雜度明顯提高;如果定得太短,則不能切分長度超過它的詞,導(dǎo)致切分正確率降低。
2.逆向最大匹配法(Reverse Maximum Matching Method,簡稱“RMM法”)。這種方法的基本原理與MM法相同,不同的是切詞時(shí)的掃描方向。如果說MM法的掃描方向是從左到右取字符串進(jìn)行匹配,RMM法的掃描方向則是從右到左取字符串進(jìn)行匹配。實(shí)驗(yàn)表明,RMM法的切詞正確率比MM法更高一些。但是,RMM法要求配置逆序的切詞詞典,這樣的詞典與人們的語言習(xí)慣不相符合,修改和維護(hù)都不太方便。
3.逐詞遍歷匹配法。這種方法是把詞典中存放的詞按由長到短的順序,逐個(gè)與待切詞的語料進(jìn)行匹配,直到把語料中的所有的詞都切分出來為止。由于這種方法要把在詞典中的每一個(gè)詞都匹配一遍,需要花費(fèi)很多時(shí)間,算法的時(shí)間復(fù)雜度相應(yīng)增加,因此,切詞的速度較慢,切詞的效率不高。
4.雙向掃描法。分別采用MM法和RMM法進(jìn)行正向和逆向的掃描與初步的切分,并將用MM法初步切分的結(jié)果與用RMM法初步切分的結(jié)果進(jìn)行比較。如果兩種結(jié)果一致,則判定切分正確;如果兩種結(jié)果不一致,則判定為疑點(diǎn)。這時(shí),或者結(jié)合上下文有關(guān)的信息,或者進(jìn)行人工干預(yù),選取一種切分作為正確的切分。不過,這種方法也存在一定問題:一是要進(jìn)行雙向掃描,時(shí)間復(fù)雜度增加;二是切詞詞典要同時(shí)支持正向和逆向兩種順序的匹配與搜索,詞典的結(jié)構(gòu)比一般的切詞詞典要復(fù)雜得多。
5.最佳匹配法(Optimum Matching Method,簡稱“OM法”)。在切詞詞典中,按照詞的出現(xiàn)頻率的大小排列詞條,高頻率的詞排在前,低頻率的詞排在后,從而縮短查詢切詞詞典的時(shí)間,加快切詞的速度,使切詞達(dá)到最佳效果。這種方法對于切詞的算法沒有什么改進(jìn),只是改進(jìn)了切詞詞典的排列順序,它雖然降低了切詞的時(shí)間復(fù)雜度,卻沒有提高切詞的正確率。
6.設(shè)立切分標(biāo)志法。書面漢語中的切分標(biāo)志主要有兩種:一種是自然的切分標(biāo)志,如標(biāo)點(diǎn)符號,詞不能跨越標(biāo)點(diǎn)符號而存在,標(biāo)點(diǎn)符號必定是詞的邊界之所在;另一種是非自然的切分標(biāo)志,如只能在詞首出現(xiàn)的詞首字、只能在詞尾出現(xiàn)的詞尾字、沒有構(gòu)詞能力的單音節(jié)單純詞、多音節(jié)單純詞、擬聲詞等,詞顯然也不能跨越這些標(biāo)志而存在,它們也必定是詞的邊界之所在。如果我們搜集了大量的這種切分標(biāo)志,在切詞時(shí),先找出切分標(biāo)志,就可以把句子切分成一些較短的字段;然后,再采用MM法或RMM法,進(jìn)一步把詞切分出來。使用這種方法切詞,不僅要額外消耗時(shí)間來掃描切分標(biāo)志,而且還要花費(fèi)存貯空間來存放非自然的切分標(biāo)志,使切詞算法的時(shí)間復(fù)雜度和空間復(fù)雜度都大大增加,而切詞的正確率卻不能提高。因此,采用這種方法的自動切詞系統(tǒng)很少。
就像在黑暗中電光一閃,
馮:在認(rèn)知科學(xué)(cognitive science)中,有一個(gè)著名的“雙過程理論”。該理論認(rèn)為,人類的認(rèn)知可以分為兩個(gè)系統(tǒng):系統(tǒng)1和系統(tǒng)2。其中,系統(tǒng)1是基于直覺的(Intuitive-based)系統(tǒng),系統(tǒng)2是基于分析的(Analytic-based)系統(tǒng)。系統(tǒng)1進(jìn)行“快思維”,是建立在直覺基礎(chǔ)上的、無知覺的思考系統(tǒng),其運(yùn)作依賴于經(jīng)驗(yàn)和關(guān)聯(lián)。它的基本功能是激活感知、情感、記憶、經(jīng)驗(yàn)等相關(guān)對象,這些都是無意識的、可以快速激活的對象,并把激活的信息構(gòu)成一個(gè)和諧的事件。這將導(dǎo)致系統(tǒng)1很容易被欺騙,只要相關(guān)對象是和諧的,系統(tǒng)1就認(rèn)為是正確的。因此,系統(tǒng)1可以自動地、輕易地、快速地相信任何東西,容易造成誤判。而系統(tǒng)2進(jìn)行“慢思維”,是人類特有的邏輯思維能力。它利用工作系統(tǒng)中的知識,進(jìn)行慢速而可靠的邏輯推理,需要意識控制,進(jìn)行循規(guī)蹈矩的深思熟慮,是人類高級智能的表現(xiàn)。它的基本功能是數(shù)學(xué)計(jì)算和邏輯推理,進(jìn)行有意識的判斷和推理,就像一個(gè)“慢諸葛”。系統(tǒng)2可以改變系統(tǒng)1的工作方式,彼此之間進(jìn)行協(xié)調(diào),從而修正系統(tǒng)1的誤判。系統(tǒng)1與系統(tǒng)2的協(xié)調(diào)關(guān)系,可如圖2所示(見下頁):
STZ 誘導(dǎo)的小鼠糖尿病模型在早期階段會產(chǎn)生氧自由基,如超氧陰離子自由基(? O2-)、過氧化氫(H2O2)、羥自由基(? OH)等會引起小鼠體內(nèi)促氧化劑和抗氧化劑失衡導(dǎo)致氧化應(yīng)激,并與 NO 途徑相互作用導(dǎo)致 β 細(xì)胞破壞,引起糖代謝紊亂[7]。
9.基于詞頻統(tǒng)計(jì)的切詞法。這種方法利用詞頻統(tǒng)計(jì)的結(jié)果來幫助在切詞過程中處理歧義切分字段。例如,AB是一個(gè)詞,BC是另一個(gè)詞,如果詞頻統(tǒng)計(jì)的結(jié)果表明BC的出現(xiàn)頻率大于AB的出現(xiàn)頻率,那么,在處理歧義切分字段ABC時(shí),就把BC作為一個(gè)單詞,A作為一個(gè)單詞,而排斥AB作為一個(gè)單詞的可能性,也就是把ABC切分為A/BC。這種方法的缺點(diǎn)是,由于只考慮詞頻,出現(xiàn)頻率較低的詞總是被錯(cuò)誤地切分。
10.基于期望的切詞法。這種方法認(rèn)為,當(dāng)一個(gè)詞出現(xiàn)時(shí),它后面緊隨的詞就會有一種期望,根據(jù)這種期望,在詞表中找出所對應(yīng)的詞,從而完成切分。這種方法增加了切詞的空間復(fù)雜度,但在一定程度上提高了切詞的正確率。
此外,還有基于專家系統(tǒng)的切詞法和基于神經(jīng)網(wǎng)絡(luò)的切詞法,可以說,利用人工智能的方法來進(jìn)行漢語書面語的自動切分,也取得了較好的成績。
在上述切詞方法中,MM法、RMM法和逐詞遍歷法是最基本的機(jī)械性的切詞方法,而其他方法都不是純粹意義上的機(jī)械性的切詞方法。在實(shí)際的漢語書面語自動切詞系統(tǒng)中,一般都是幾種方法配合使用,以此達(dá)到最理想的切詞效果。
徐:馮先生,聽了您的解釋,真是令人茅塞頓開。在進(jìn)行自然語言處理時(shí),將漢語語法運(yùn)用到其中,給可能會出現(xiàn)歧義的情況加上限制條件,這樣才能使計(jì)算機(jī)明白應(yīng)如何進(jìn)行自動切詞。同時(shí),也十分感謝馮先生為我們總結(jié)了自動切詞技術(shù)可以采用的主要方法。接下來,請您談?wù)勈侨绾卧u價(jià)自然語言處理領(lǐng)域的研究現(xiàn)狀的;您認(rèn)為,這個(gè)領(lǐng)域今后應(yīng)當(dāng)朝什么方向繼續(xù)努力?
馮:在自然語言處理領(lǐng)域,我國已經(jīng)在以大數(shù)據(jù)驅(qū)動的深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)方面取得了可喜的成績,在語音識別、語音合成、漢字識別、機(jī)器翻譯等應(yīng)用領(lǐng)域已經(jīng)實(shí)現(xiàn)了商品化,自然語言處理的研究成果可以造福于人類。這是經(jīng)驗(yàn)主義方法的成就,值得高興。但是,我們在以語言學(xué)知識驅(qū)動的深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)方面還剛剛起步,這是理性主義方法的不足。“道路阻且長”,我們還要繼續(xù)努力,把理性主義的方法與經(jīng)驗(yàn)主義的方法進(jìn)一步結(jié)合起來。
國際著名語言學(xué)雜志《語言》(Language)2019年第1期刊登了美國學(xué)者Pater的文章《生成語言學(xué)和神經(jīng)網(wǎng)絡(luò)60年:基礎(chǔ)、分歧與融合》以及該文的回應(yīng)文章,重點(diǎn)討論了基于連接主義方法的深度學(xué)習(xí)與語言學(xué)研究,特別是生成語言學(xué)研究之間的對立與融合關(guān)系。
陸游的地域書寫,比其他作家受時(shí)空轉(zhuǎn)換的影響更明顯。錢鐘書云:“至放翁詩中,居梁益則憶山陰,歸山陰又戀梁益,此乃當(dāng)前不御,過后方思,遷地為良,安居不樂;人之常情,與議論矛盾殊科。”在時(shí)間的流逝與空間的轉(zhuǎn)變中,陸游關(guān)于梁益的地域書寫在內(nèi)容和情緒等方面都發(fā)生了不小的變化,而有些變化因記憶模糊或創(chuàng)作心態(tài)改變甚至?xí)昂竺埽m非“議論矛盾”,卻是許多細(xì)節(jié)或情緒上的矛盾。
Pater呼吁,應(yīng)在神經(jīng)網(wǎng)絡(luò)研究和語言學(xué)之間進(jìn)行更多的互動。他認(rèn)為,如果生成語言學(xué)繼續(xù)保持與神經(jīng)網(wǎng)絡(luò)和統(tǒng)計(jì)學(xué)習(xí)之間的距離,那么,生成語言學(xué)便不可能實(shí)現(xiàn)它對語言學(xué)習(xí)機(jī)制進(jìn)行解釋的承諾
。Linzen在他的回應(yīng)文章中指出,語言學(xué)研究與深度學(xué)習(xí)可以相互促進(jìn)。一方面,語言學(xué)家可以詳細(xì)描寫神經(jīng)網(wǎng)絡(luò)模型的語言學(xué)習(xí)能力,并通過實(shí)驗(yàn)加以驗(yàn)證;另一方面,神經(jīng)網(wǎng)絡(luò)可以模擬人類加工語言的過程,有助于語言學(xué)家研究內(nèi)在制約條件的必要性
。
第一,時(shí)間分布圖譜表明,在近10年的時(shí)間內(nèi),科研成果平穩(wěn)增長,以政府機(jī)構(gòu)改革為主題的研究主要采取定性為主,輔以定量分析的研究方法,研究成果主要發(fā)表在社科類基礎(chǔ)研究和政策研究類刊物上。該研究領(lǐng)域現(xiàn)階段正趨于穩(wěn)定,多個(gè)學(xué)科的前沿定量研究方法正被引入,研究深度有加強(qiáng)趨勢。
我贊同他們的意見,深度學(xué)習(xí)應(yīng)當(dāng)與語言學(xué)研究結(jié)合起來,基于語言大數(shù)據(jù)的經(jīng)驗(yàn)主義方法應(yīng)當(dāng)與基于語言規(guī)則的理性主義方法結(jié)合起來,相互促進(jìn),相得益彰,從而推動自然語言處理的進(jìn)一步發(fā)展。我們這一代學(xué)者趕上了基于語言大數(shù)據(jù)的經(jīng)驗(yàn)主義盛行的黃金時(shí)代,在自然語言處理中,我們可以把唾手可得的那些低枝頭上的果實(shí),采用深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的經(jīng)驗(yàn)主義方法采摘下來;而我們留給下一代的,則是那些處于高枝頭上的最難啃的硬骨頭。
因此,我們要告誡下一代的學(xué)者,不要過分地迷信目前廣為流行的基于語言大數(shù)據(jù)的經(jīng)驗(yàn)主義方法,不要輕易地忽視目前受到冷落的基于語言規(guī)則的理性主義方法。我們應(yīng)當(dāng)讓下一代的年輕學(xué)者做好創(chuàng)新的準(zhǔn)備,把基于語言大數(shù)據(jù)的經(jīng)驗(yàn)主義方法和基于語言規(guī)則的理性主義方法巧妙地結(jié)合起來,把大數(shù)據(jù)和形式化的知識結(jié)合起來,從而把自然語言處理的研究推向深入。
目前流行的深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的熱潮,為基于語言大數(shù)據(jù)的經(jīng)驗(yàn)主義方法添了一把火,預(yù)計(jì)這樣的熱潮還會繼續(xù)主導(dǎo)自然語言處理領(lǐng)域很多年,這有可能使我們延宕了向基于語言規(guī)則的理性主義方法回歸的日程表。不過,我始終認(rèn)為,在自然語言處理的研究中,基于語言規(guī)則的理性主義方法復(fù)興的歷史步伐是不會改變的,基于語言數(shù)據(jù)的經(jīng)驗(yàn)主義方法一定要與基于語言規(guī)則的理性主義方法結(jié)合起來,這才是自然語言處理發(fā)展的金光大道。
[1]馮志偉.計(jì)算語言學(xué)基礎(chǔ)[M].北京:商務(wù)印書館,2001.
[2]馮志偉.數(shù)學(xué)與語言[M].北京:世界圖書出版公司,2011.
[3][美]Jurafsky,D.& Martin,J.H.自然語言處理綜論[M].馮志偉,孫樂譯.北京:電子工業(yè)出版社,2005.
[4]馮志偉.自然語言處理簡明教程[M].上海:上海外語教育出版社,2012.
[5]馮志偉.中文信息處理與漢語研究[M].北京:商務(wù)印書館,1992.
[6][蘇]費(fèi)爾斯曼.趣味地球化學(xué)[M].石英,安吉譯.北京:中國青年出版社,1956.
[7][蘇]吉米多維奇.數(shù)學(xué)分析習(xí)題集[M].李榮涷譯.北京:高等教育出版社,1958.
[8]馮志偉.自然語言處理中的歧義消解方法[J].語言文字應(yīng)用,1996,(1).
[9]奉國和,鄭偉.國內(nèi)中文自動分詞技術(shù)研究綜述[J].圖書情報(bào)工作,2011,(2).
[10]Pater,J.Generative linguistics and neural networks at 60: Foundation, friction, and fusion[J].Language,2019,(1).
[11]Linzen,T.What can linguistics and deep learning contribute each other?——Response to Joe Pater[J].Language,2019,(1).