999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

關于自然語言處理的對話

2022-07-03 02:04:12徐琴馮志偉
現代語文 2022年6期
關鍵詞:計算機

徐琴 馮志偉

摘? 要:馮志偉先生是我國計算語言學和自然語言處理研究的開拓者之一,他的論著在語言學界產生了深遠影響。他在大學時代,將文科和理科相結合,以數學的方法研究語言,為后來進入計算語言學領域打下了堅實的基礎。馮志偉指出,在大數據時代,知識圖譜在抽取信息時發揮著十分重要的作用,但是如何自動地運用知識圖譜的方法來獲取隱含語義關系,仍需要進一步努力。在自然語言處理的智能化方面,應努力實現由直覺到理性的轉變,知識圖譜或許能夠提供一條可行的途徑。自然語言處理的下一步發展方向,應是將深度學習與語言學研究相結合,將基于語言大數據的經驗主義方法與基于語言規則的理性主義方法相結合,它們的相互促進、共同提高,必將推動自然語言處理學科的高質量發展。

關鍵詞:自然語言處理;邏輯推理;語言學;計算機

自然語言處理(Natural Language Processing)是一門融語言學、計算機科學、數學于一體的學科,它以語言為對象,利用計算機技術來分析、理解和處理自然語言。可以說,語言文本和對話在各個層面上所廣泛存在的歧義性或多義性(ambiguity),給自然語言處理帶來了很大的困難。馮志偉先生是我國計算語言學的開拓者之一,出版、發表了一系列與自然語言處理相關的論著。他的《計算語言學基礎》[1]、《數學與語言》[2]、《自然語言處理綜論》[3]、《自然語言處理簡明教程》[4]、《中文信息處理與漢語研究》[5]等專(譯)著,在語言學界產生了深遠影響,有力地推動了國內自然語言處理的發展。我們從學術之路、知識圖譜、智能化、自動切詞、發展方向等方面,就自然語言處理的幾個關鍵性問題,對馮先生進行了專門訪談。

一、學術之路:走自己的路

徐琴(以下簡稱“徐”):馮先生,您好!首先非常感謝您接受我們的采訪。您作為我國計算語言學和自然語言處理研究的開拓者之一,是世界上第一個“漢語到多種外語機器翻譯系統”的研制者。那么,當初是由于什么原因讓您棄理從文,毅然決定轉向語言學的呢?您認為語言學最讓您著迷的是什么?

馮志偉(以下簡稱“馮”):今天是2022年4月15日,恰好是我83歲生日。我從事計算語言學和自然語言處理的研究已經有60多年了。

1957年高中畢業時,同班同學送給我一本書:蘇聯科學院院士、著名地球化學家費爾斯曼的《趣味地球化學》[6],書中描述了費爾斯曼使用地球化學方法在可拉半島找到鉀鹽礦,從而解決了蘇聯社會主義建設的燃眉之急的事跡,給了我很大的鼓舞。當時地球化學是國家急需的尖端學科,我看了這本書,對地球化學產生了濃厚的興趣,決心學習費爾斯曼,為祖國找到社會主義建設所需要的礦藏。于是我毅然報考了北京大學地球化學專業。后來,果然以優異成績考入北京大學地球化學專業學習。

在地球化學專業,我學習了高等數學、普通物理學、普通化學、礦物學、結晶學等課程,打好了自然科學的基礎。我特別喜歡做數學題,思考復雜的數學問題。我在一首詩里寫道:

數學就像磁石一樣,

吸引我走進邏輯的殿堂,

就像在黑暗中電光一閃,

我似乎看到了自己思想的光芒。

我自幼就初通英語,能閱讀英語的書籍,在北大圖書館的英文版《無線電工程師協會會刊:信息論》(I.R.E. Transaction of Information Theory)雜志上,我讀到喬姆斯基(Noam Chomsky)在1956年發表的論文《語言描寫的三個模型》(Three models for the description of language)。這篇文章是研究語言的,可是卻使用了馬爾可夫鏈(Markov Chain)這樣的數學方法,喬姆斯基運用數學方法,為自然語言建立了有限狀態模型、短語結構模型和轉換模型三個不同的模型,并且分析了這些模型對于自然語言的描述能力和解釋能力。

喬姆斯基使用的這種數學方法激發了我的好奇心,使我對語言學中的形式化方法產生了濃厚興趣,萌發了強烈的探索愿望。接著,我又懷著興奮的心情通讀了喬姆斯基在1957年發表的《句法結構》英文本,對語言學的興趣愈發濃厚了。于是我向學校教務處誠懇地表達了自己想改行學習語言學的志向。1959年9月,經北大教務處批準,我棄理學文,轉入北京大學語言學專業(07591班)學習,從一年級學起,學號是5705006。這樣,我就從理科的大學三年級轉到文科的一年級,降了兩級,成為了一個文科生。

當然,理科不管是在科研經費上,還是在就業前景上,都要比文科好得多。但是我當時根本沒有考慮這些功利方面的問題,完全是出于用數學方法研究語言的興趣,被強烈的興趣所驅動。可以說,棄理學文是我人生的重要轉折。這樣的轉折完全是出于對語言研究的好奇心,并沒有任何的功利目的,可謂是好奇之心戰勝了功利之心。

但是,在當時的條件下,這樣的轉折需要面對很多問題。

第一,我從理科轉到文科,目的是在于用數學方法研究語言,用數學的邏輯之美來揭示語言的結構之妙。這在當時看來是非常奇特的想法,創新性太強了,難以得到別人的理解,必定會遇到重重的阻力和冷漠的白眼,容易被人誤解為“有資產階級名利思想”。

第二,我在中文系學習中文的同時還學習數學,必定要比別人花更多的時間,難以騰出時間來關心政治,容易被人誤解為“走白專道路”。

第三,為了了解國外用數學方法研究語言的信息,我在中文系學習中文的同時還要學習外文,需要經常閱讀各種外文書,容易被人誤解為“崇洋媚外”。

這些問題,開始轉到中文系時我并沒有想到,只是憑著用數學方法研究語言的好奇心努力學習,但是隨著時間的推移,這些問題愈演愈烈,時時困擾著我。中文系的同學們不理解我,受到了同學們的鄙夷和白眼,日子越來越難過。我陷入了煢煢孑立、形影相吊的困境。

我曾經想打退堂鼓,回到理科去,但是,我想起意大利詩人但丁(Dante Alighieri)的話:“走你自己的路,不要管他人的毀譽!”這句話給了我無窮的力量,鼓舞著我,讓我在眾人的白眼中堅持下去。轉入中文系之后,我除了學好學校規定的中文系各門課程之外,還進一步苦練英語,大量閱讀外文的文學作品。D7AB807F-15E8-4359-A685-18AB59EF10D4

這個時期,我師從王力、朱德熙、林燾、高名凱、岑麒祥、周有光等著名語言學家,學習了語言學的基礎知識。王力講授“古代漢語”“漢語史”“中國語言學史”,朱德熙講授“現代漢語研究”,林燾講授“語音學研究”,高名凱講授“普通語言學”,岑麒祥講授“西方語言學史”,周有光講授“漢字改革概論”。我認真學習這些語言學課程,學習成績優異。我試圖把自己由一個理科學生轉變為一個會用人文科學方法來思考的文科學生,把人文科學的知識與自然科學的知識結合起來。

為了運用數學方法研究語言,我除了學習語言專業的課程之外,同時也學習數學分析、集合論、數理邏輯、實變函數、復變函數、微分方程等數學系的課程。我在課余做完了蘇聯數學家吉米多維奇《數學分析習題集》[7]中的4000多道數學題,練就了解決復雜數學問題的能力。我的這些表現不合時俗,在同學中頗有微詞。

同時學習文科、理科和多門外語幾乎占據了我的全部時間,體育鍛煉也要用去一定時間。我實在沒有更多的時間來關心政治了,這在當時是很嚴重的問題,受到了很多指摘和批評。有人指摘我是“孔子學生妄圖繼承牛頓事業”,有人批評我“走白專道路”,“有資產階級名利思想”,“崇洋媚外”。實際上,我只是出于科學的好奇心才這樣專心致志,并沒有像別人想得那么惡劣。我根本就沒有功利的動機!但是,在當時的氣氛下,我是有口難辯,只好忍氣吞聲,夾著尾巴過日子。

1964年,我考取了岑麒祥教授的研究生,學號是6407903,終于可以名正言順地用數學方法來研究語言了,岑麒祥教授也同意我的研究生畢業論文為“數學方法在語言學中的應用”。可是,1966年5月爆發了“文化大革命”,我不可能再繼續進行這樣的科學研究了。1968年,我被北京大學掃地出門,先是到天津河東區教初中,后來回到了故鄉昆明教中學。昆明地處邊陲,在那里,北大老師們教給我的那些高大上的語言學知識基本上沒有什么用處,我只好改行當了一名物理教師,聊以維持生計。我徹底地離開了語言學的隊伍。

粉碎“四人幫”后,我有機會于1978年考入中國科學技術大學研究生院學習理科;接著,又公派到法國格勒諾布爾理科醫科大學應用數學研究所留學。我在法國研制了世界上第一個把漢語自動地翻譯成法語、英語、日語、俄語和德語五種外語的機器翻譯系統。可以說,國家改革開放政策的實施,使得我有機會回到科學研究崗位,成為一名軟件工程師。1985年,由于國家的需要,我被調入語言文字應用研究所,繼續從事語言學研究。

我這一生過得很辛苦,由理科轉到文科,又從文科轉到理科,最后又從理科轉回到文科。歲月蹉跎,青春難再,一生中的很多寶貴時間,都在苦苦的掙扎中煎熬。剛入北京大學的時候,我還是一個18歲的幼稚青年,而今我已經是83歲的垂垂老者,只能發揮余熱了。現在你們年輕人處于開明盛世,不會再重蹈我的覆轍了。我真羨慕你們!

二、知識圖譜:自然語言處理的寶庫

徐:您的學術之路確實是走得無比坎坷,但也真是非同尋常。在那樣艱辛的環境中,您仍然保持一顆向學之心,能靜下心來從事學術研究,真是令人欽佩!您無疑是我們年輕人學習的楷模!在現代社會,技術飛速發展,網絡媒體已經滲透到我們生活的方方面面。人類進入了大數據時代,讓計算機在這些龐雜的大數據中有效提取信息,建立知識庫,為用戶提供精準的信息服務,已成為信息服務的核心目標。可以說,知識圖譜(knowledge graph)的出現,有助于計算機實現這一目標。不過,在我們的漢語中卻有很多深層的語義關系,僅僅依靠知識圖譜中傳統的知識元素(實體、關系、屬性)抽取技術和方法是遠遠不夠的。那么,您認為,在知識抽取中,對于這些隱含關系的抽取,計算機應如何實現呢?

馮:早在50年前,1972年的文獻中就出現了“知識圖譜(knowledge graph)”這個術語。2012年5月,谷歌公司(Google)明確提出了知識圖譜的概念,并構建了一個大規模的知識圖譜,開啟了知識圖譜研究之先河。

知識圖譜用結點(vertex)表示語義符號,用邊(edge)表示符號與符號之間的語義關系,由此構成了一種通用的語義知識形式化描述框架。知識圖譜中的三元組用(h,r,t)表示,其中,h表示“頭實體(head)”,r表示“關系(relation)”,t表示“尾實體(tail)”。知識圖譜的三元組結構其實非常簡單,可以表示為:(head,relation,tail);用首字母表示就是:(h,r,t)。這種表示方法簡單、明確、有效。

在計算機中,結點和邊這樣的符號,都可以通過“符號具化(symbol grounding)”的方式,來表征物理世界和認知世界中的對象,并作為不同個體對認知世界中信息、知識進行描述和交換的橋梁。知識圖譜這種使用統一形式的知識描述框架,便于知識的分享和學習,因此,受到了自然語言處理研究者的普遍歡迎。

例如,美國卡內基梅隆大學基于“Read the Web”項目研制出NELL知識圖譜,NELL的英文含義就是“Never-Ending Language Learning”(永無止境的語言學習)。NELL每天不間斷地執行兩項任務:自動閱讀(Reading)和自動學習(Learning)。自動閱讀任務是從Web文本中獲取知識,并把閱讀到的知識添加到NELL的內部知識庫中;自動學習任務是使用機器學習算法獲取新的知識,鞏固和擴展對于知識的理解。NELL可以抽取大量的三元組,并標注出所抽取的迭代輪數、時間和置信度,還可以進行人工校驗。NELL系統從2010年開始機器自動學習,經過半年的學習之后,總共抽取了35萬條實體關系三元組。經過人工標注和校正之后,進一步抽取更多的事實,知識抽取的正確率可以達到87%。這里不妨以圖1為例加以說明:

圖1是NELL抽取的有關“Maple Leafs(楓葉)”球隊的知識片段,該片段由很多三元組構成。例如:D7AB807F-15E8-4359-A685-18AB59EF10D4

(Maple Leafs,play,hockey)

(Maple Leafs,won,Stanley Cup)

(Maple Leafs,hired,Wilson)

(Maple Leafs,member,Toskals)

(Maple Leafs,member,Sundin)

(Maple Leafs,home town,Toronto)

(Toronto,country,Canada)

從這些三元組中可以知道,“Maple Leafs”這個球隊是打(play)曲棍球(hockey)的;這個球隊曾經獲獎(won),得過Stanley獎杯(Stanley Cup);這個球隊的雇主(hired)是威爾森(Wilson);這個球隊的成員(member)有托斯卡爾思(Toskals)和孫定(Sundin);這個球隊所在的城市(home town)是多倫多(Toronto);而多倫多所在的國家(country)是加拿大(Canada)。這就構成了一個非常復雜的知識系統。

NELL還可以使用知識圖譜進行簡單的邏輯推理。例如,從知識圖譜中知道,“Maple Leafs”球隊所在的城市(home town)是多倫多,而多倫多所在的國家(country)是加拿大,因此,可以推論出這個球隊所在的國家也是加拿大。其邏輯推理過程如下:

(Maple Leafs,home town,Toronto)∩(Toronto,country,Canada)

→(Maple Leafs,country,Canada)

在上面的邏輯推理式子中,“∩”是邏輯合取符號,表示“和”的意思。

NELL通過機器學習的方式以構建知識圖譜,從而可以持續不斷地從網絡上獲取資源來發現事實并總結規則,其中,就涉及到命名實體識別、同名排歧、智能推薦等自然語言處理的技術。

如果我們具有了數以億計的這樣的知識圖譜的三元組知識,還可以使用它們進行邏輯推理,從而獲得一些隱含的知識。例如,如果我們有了關于馮志偉和喬姆斯基出生年代的三元組:

(馮志偉,出生年代,1939)

(喬姆斯基,出生年代,1928)

在智能對話系統中,當用戶提問:“馮志偉出生的時候,喬姆斯基的年齡有多大?”對于這樣的問題,僅僅依靠直接查詢知識圖譜中的三元組,是很難回答的,它屬于隱含的知識,必須進行邏輯推理才可能獲得。

如果有了知識圖譜的上述三元組信息,根據馮志偉出生時喬姆斯基的年齡應當等于馮志偉的出生年代減去喬姆斯基的出生年代這樣的數學規律,即:1939-1928=11,我們就可以根據知識圖譜推論出:馮志偉出生時喬姆斯基的年齡應當是11歲。這樣,我們就可以從知識圖譜中存儲的舊知識中推論出新的、隱含的知識,從而回答“馮志偉出生的時候,喬姆斯基的年齡有多大?”這樣很難直接在知識圖譜中查詢的問題。由此可見,知識圖譜的三元組結構化信息不僅能夠存儲知識,還可以進行邏輯推理,從而產生出新的、隱含的知識,它確實是人類知識的寶庫,是人工智能發展的階梯,是非常有價值的。

目前,知識圖譜仍處于初級階段,如何自動地使用知識圖譜的方法來獲取自然語言中隱含的各種語法、語義、語用知識,還需要我們進一步探討。

三、智能化:實現由直覺到理性的轉變

徐:也就是說,知識圖譜是一種描述知識的圖,從不同模態(語音、圖片、文本)的自然語言(人類使用的語言)中,抽取出有意義的知識,并轉換成計算機理解的形式,從而使計算機具備一定的推理能力。不得不令人感嘆,當代社會的技術發展如此迅速,自然語言處理也邁向了新的征程。那么,您認為,在將來的自然語言處理中,計算機能否像人類一樣發展出邏輯推理能力?如果可以做到的話,您認為需要我們做哪些方面的努力?

馮:在認知科學(cognitive science)中,有一個著名的“雙過程理論”。該理論認為,人類的認知可以分為兩個系統:系統1和系統2。其中,系統1是基于直覺的(Intuitive-based)系統,系統2是基于分析的(Analytic-based)系統。系統1進行“快思維”,是建立在直覺基礎上的、無知覺的思考系統,其運作依賴于經驗和關聯。它的基本功能是激活感知、情感、記憶、經驗等相關對象,這些都是無意識的、可以快速激活的對象,并把激活的信息構成一個和諧的事件。這將導致系統1很容易被欺騙,只要相關對象是和諧的,系統1就認為是正確的。因此,系統1可以自動地、輕易地、快速地相信任何東西,容易造成誤判。而系統2進行“慢思維”,是人類特有的邏輯思維能力。它利用工作系統中的知識,進行慢速而可靠的邏輯推理,需要意識控制,進行循規蹈矩的深思熟慮,是人類高級智能的表現。它的基本功能是數學計算和邏輯推理,進行有意識的判斷和推理,就像一個“慢諸葛”。系統2可以改變系統1的工作方式,彼此之間進行協調,從而修正系統1的誤判。系統1與系統2的協調關系,可如圖2所示(見下頁):

目前,基于神經網絡和深度學習的自然語言處理,基本上還是在系統1的基礎上進行的,主要依靠大規模或者超大規模的數據來支持,有的自然語言處理系統的數據參數已經到達數千億之多,這樣的自然語言處理系統具有很強大的處理能力。例如,根據最近WMT(國際機器翻譯評測會議)的評測結果,英漢

神經機器翻譯系統對于一般文本的翻譯正確率已經達到83%以上,基本上可以滿足普通用戶的要求了。可惜的是,系統1的效率雖然較高,但是它的可解釋性很差,基本上還是一個黑箱(black box)。我們對于系統1的研究,還處于“知其然而不知其所以然”的水平。

今后,自然語言處理研究需要從系統1的深度學習發展到系統2的深度學習,實現系統2的邏輯分析和推理功能。這除了需要大規模數據(big data)的支持之外,更需要豐富知識(rich knowledge)的支持,這些知識不僅包括語言學知識(linguistic knowledge),還包括日常生活中的普通常識(common knowledge)。系統2的知識如何融入系統1中,是一個相當復雜的問題,目前還沒有找到有效的途徑,上文中所提到的知識圖譜這一形式化的方法,是我們目前正在探索的一個可行的途徑。可以說,語言學家有必要學習知識圖譜,更新自己的知識觀念,把知識圖譜應用到語言的研究中,或許會有所突破。D7AB807F-15E8-4359-A685-18AB59EF10D4

四、自動切詞:多種方法并存

徐:這樣看來,如果說語言是人類學習、思維的一個工具,那么,知識圖譜則是計算機學習的工具。在自然語言信息處理中,不僅僅包括對于信息的抽取,自動分詞也是重要的組成部分:語言信息處理必須以詞為基本單位,然后才能進行句法、語義分析。英語等西方語言的詞與詞之間在書面上是用空格分開的,一般不存在分詞問題。不過,由于漢語自身的獨特性,在機器自動分詞上存在著很大的困難。在漢語中有這樣一類現象:字段AB,組合起來是詞,分開也是詞。比如,“她將來想當老師”中的“將來”是一個詞,不能切分;在“她將來北京”中,“將來”卻應該切分為“將/來”。那么,您認為,在語言信息處理時,可以采取哪些措施來解決這種有歧義的切分字段?在中文信息處理領域,關于自動分詞技術還有哪些可以采用的方法呢?

馮:這里首先需要申明的是,我并不喜歡使用“自動分詞”這個術語,而更愿意使用“自動切詞”這個術語。因為“分詞”容易與英語中的“participle”這個術語混淆,而participle是英語中非定式動詞的一種形式。participle既有動詞的作用,又可起形容詞的作用,如“現在分詞(present participle)”“過去分詞(past participle)”等,與我們所討論的“自動切詞(automatic word segmentation)”是完全不同的概念。

你所說的“將來”這個字段,屬于多義組合型歧義切分字段,這種歧義切分字段是由詞與詞之間的串聯組合產生的。從形式上說,在字段S=a1…ai+b1…bj中,由于a1…ai、b1…bj和S三者都能分別成詞,字串a1…ai與字串b1…bj形成了串聯組合,就會產生歧義切分。“將來”“將”“來”三者都可以分別成詞,因而產生歧義。對于這樣的多義組合型歧義切分字段,可以根據句法知識進行切分。例如,在“她將來想當老師”這個句子中,動詞“想當”是中心動詞,因此,前面的“將來”應當是表示時間的時間詞,不能切分。而在句子“她將來北京”中,中心動詞是“來”,前面的“將”是表示時態的副詞,因此,應當切分為“將/來”。根據這些句法知識,不難進行正確的判定。此外,如“馬上”這個字段可以切分為“馬上”“馬” “上”,三者都可以分別成詞,也是一種多義組合型歧義切分字段,同樣會產生切分歧義。至于在語言信息處理時,如何解決這種有歧義的切分字段,可參看我所撰寫的《自然語言處理中的歧義消解方法》[8]一文。

從上世紀80年代開始,我國學者就對漢語書面文本的自動切詞進行了深入探討。關于這一問題,可參看奉國和、鄭偉的《國內中文自動分詞技術研究綜述》[9]。歸納起來看,國內學者提出的方法主要有以下幾種:

1.最大匹配法(Maximum Matching Method,簡稱“MM法”)。在計算機中存放一個已知的詞表,這個詞表稱為“底表”;從被切分的語料中,按照給定的方向順序截取一個定長的字符串,通常為6至8個漢字,這個字符串的長度稱為“最大詞長”。把這個具有最大詞長的字符串與底表中的詞相匹配,如果匹配成功,就可以確定這個字符串為詞,計算機程序的指針向后移動,與給定最大詞長相應個數的漢字繼續進行匹配;否則,則把該字符串逐次減一,再與底表中的詞進行匹配,直到成功為止。MM法的原理簡單,易于在計算機上實現,時間復雜度也比較低。不過,最大詞長的長度較難確定,如果定得太長,則匹配時花費的時間就多,算法的時間復雜度明顯提高;如果定得太短,則不能切分長度超過它的詞,導致切分正確率降低。

2.逆向最大匹配法(Reverse Maximum Matching Method,簡稱“RMM法”)。這種方法的基本原理與MM法相同,不同的是切詞時的掃描方向。如果說MM法的掃描方向是從左到右取字符串進行匹配,RMM法的掃描方向則是從右到左取字符串進行匹配。實驗表明,RMM法的切詞正確率比MM法更高一些。但是,RMM法要求配置逆序的切詞詞典,這樣的詞典與人們的語言習慣不相符合,修改和維護都不太方便。

3.逐詞遍歷匹配法。這種方法是把詞典中存放的詞按由長到短的順序,逐個與待切詞的語料進行匹配,直到把語料中的所有的詞都切分出來為止。由于這種方法要把在詞典中的每一個詞都匹配一遍,需要花費很多時間,算法的時間復雜度相應增加,因此,切詞的速度較慢,切詞的效率不高。

4.雙向掃描法。分別采用MM法和RMM法進行正向和逆向的掃描與初步的切分,并將用MM法初步切分的結果與用RMM法初步切分的結果進行比較。如果兩種結果一致,則判定切分正確;如果兩種結果不一致,則判定為疑點。這時,或者結合上下文有關的信息,或者進行人工干預,選取一種切分作為正確的切分。不過,這種方法也存在一定問題:一是要進行雙向掃描,時間復雜度增加;二是切詞詞典要同時支持正向和逆向兩種順序的匹配與搜索,詞典的結構比一般的切詞詞典要復雜得多。

5.最佳匹配法(Optimum Matching Method,簡稱“OM法”)。在切詞詞典中,按照詞的出現頻率的大小排列詞條,高頻率的詞排在前,低頻率的詞排在后,從而縮短查詢切詞詞典的時間,加快切詞的速度,使切詞達到最佳效果。這種方法對于切詞的算法沒有什么改進,只是改進了切詞詞典的排列順序,它雖然降低了切詞的時間復雜度,卻沒有提高切詞的正確率。

6.設立切分標志法。書面漢語中的切分標志主要有兩種:一種是自然的切分標志,如標點符號,詞不能跨越標點符號而存在,標點符號必定是詞的邊界之所在;另一種是非自然的切分標志,如只能在詞首出現的詞首字、只能在詞尾出現的詞尾字、沒有構詞能力的單音節單純詞、多音節單純詞、擬聲詞等,詞顯然也不能跨越這些標志而存在,它們也必定是詞的邊界之所在。如果我們搜集了大量的這種切分標志,在切詞時,先找出切分標志,就可以把句子切分成一些較短的字段;然后,再采用MM法或RMM法,進一步把詞切分出來。使用這種方法切詞,不僅要額外消耗時間來掃描切分標志,而且還要花費存貯空間來存放非自然的切分標志,使切詞算法的時間復雜度和空間復雜度都大大增加,而切詞的正確率卻不能提高。因此,采用這種方法的自動切詞系統很少。D7AB807F-15E8-4359-A685-18AB59EF10D4

7.有窮多級列舉法。這種方法把現代漢語中的全部詞分為兩大類:一類是開放詞,如名詞、動詞、形容詞等,它們的成員幾乎是無窮的;另一類是閉鎖詞,如連詞、助詞、嘆詞等,它們的成員是可以一一枚舉的。切詞的時候,先切出具有特殊標志的字符串,如阿拉伯數字、拉丁字母等,再切出可枚舉的閉鎖詞,最后再逐級切出開放詞。這是一種完全立足于語言學的切詞方法,在計算機上實現起來還有很大難度。

8.聯想—回溯法(Association—Backtracking Method,簡稱“AB法”)。這種方法要求建立三個知識庫:特征詞詞庫、實詞詞庫和規則庫。首先,將待切分的漢字字符串序列按特征詞詞庫分割為若干子串,子串可以是詞,也可以是由幾個詞組合而成的詞群;然后,利用實詞詞庫和規則庫,將詞群再細分為詞。在切詞時,需要運用一定的語法知識,建立聯想機制和回溯機制。聯想機制由聯想網絡和聯想推理構成,其中,聯想網絡描述每個虛詞的構詞能力,聯想推理利用相應的聯想網絡來判定所描述的虛詞究竟是單獨成詞還是作為其他詞中的構詞成分。回溯機制則主要用于處理歧義句子的切分。聯想—回溯法雖然增加了算法的時間復雜度和空間復雜度,但是這種方法的切詞正確率較高,是一種行之有效的方法。

9.基于詞頻統計的切詞法。這種方法利用詞頻統計的結果來幫助在切詞過程中處理歧義切分字段。例如,AB是一個詞,BC是另一個詞,如果詞頻統計的結果表明BC的出現頻率大于AB的出現頻率,那么,在處理歧義切分字段ABC時,就把BC作為一個單詞,A作為一個單詞,而排斥AB作為一個單詞的可能性,也就是把ABC切分為A/BC。這種方法的缺點是,由于只考慮詞頻,出現頻率較低的詞總是被錯誤地切分。

10.基于期望的切詞法。這種方法認為,當一個詞出現時,它后面緊隨的詞就會有一種期望,根據這種期望,在詞表中找出所對應的詞,從而完成切分。這種方法增加了切詞的空間復雜度,但在一定程度上提高了切詞的正確率。

此外,還有基于專家系統的切詞法和基于神經網絡的切詞法,可以說,利用人工智能的方法來進行漢語書面語的自動切分,也取得了較好的成績。

在上述切詞方法中,MM法、RMM法和逐詞遍歷法是最基本的機械性的切詞方法,而其他方法都不是純粹意義上的機械性的切詞方法。在實際的漢語書面語自動切詞系統中,一般都是幾種方法配合使用,以此達到最理想的切詞效果。

五、發展方向:經驗主義和理性主義相結合

徐:馮先生,聽了您的解釋,真是令人茅塞頓開。在進行自然語言處理時,將漢語語法運用到其中,給可能會出現歧義的情況加上限制條件,這樣才能使計算機明白應如何進行自動切詞。同時,也十分感謝馮先生為我們總結了自動切詞技術可以采用的主要方法。接下來,請您談談是如何評價自然語言處理領域的研究現狀的;您認為,這個領域今后應當朝什么方向繼續努力?

馮:在自然語言處理領域,我國已經在以大數據驅動的深度學習和神經網絡方面取得了可喜的成績,在語音識別、語音合成、漢字識別、機器翻譯等應用領域已經實現了商品化,自然語言處理的研究成果可以造福于人類。這是經驗主義方法的成就,值得高興。但是,我們在以語言學知識驅動的深度學習和神經網絡方面還剛剛起步,這是理性主義方法的不足。“道路阻且長”,我們還要繼續努力,把理性主義的方法與經驗主義的方法進一步結合起來。

國際著名語言學雜志《語言》(Language)2019年第1期刊登了美國學者Pater的文章《生成語言學和神經網絡60年:基礎、分歧與融合》以及該文的回應文章,重點討論了基于連接主義方法的深度學習與語言學研究,特別是生成語言學研究之間的對立與融合關系。

Pater呼吁,應在神經網絡研究和語言學之間進行更多的互動。他認為,如果生成語言學繼續保持與神經網絡和統計學習之間的距離,那么,生成語言學便不可能實現它對語言學習機制進行解釋的承諾[10]。Linzen在他的回應文章中指出,語言學研究與深度學習可以相互促進。一方面,語言學家可以詳細描寫神經網絡模型的語言學習能力,并通過實驗加以驗證;另一方面,神經網絡可以模擬人類加工語言的過程,有助于語言學家研究內在制約條件的必要性[11]。

我贊同他們的意見,深度學習應當與語言學研究結合起來,基于語言大數據的經驗主義方法應當與基于語言規則的理性主義方法結合起來,相互促進,相得益彰,從而推動自然語言處理的進一步發展。我們這一代學者趕上了基于語言大數據的經驗主義盛行的黃金時代,在自然語言處理中,我們可以把唾手可得的那些低枝頭上的果實,采用深度學習和神經網絡的經驗主義方法采摘下來;而我們留給下一代的,則是那些處于高枝頭上的最難啃的硬骨頭。

因此,我們要告誡下一代的學者,不要過分地迷信目前廣為流行的基于語言大數據的經驗主義方法,不要輕易地忽視目前受到冷落的基于語言規則的理性主義方法。我們應當讓下一代的年輕學者做好創新的準備,把基于語言大數據的經驗主義方法和基于語言規則的理性主義方法巧妙地結合起來,把大數據和形式化的知識結合起來,從而把自然語言處理的研究推向深入。

目前流行的深度學習和神經網絡的熱潮,為基于語言大數據的經驗主義方法添了一把火,預計這樣的熱潮還會繼續主導自然語言處理領域很多年,這有可能使我們延宕了向基于語言規則的理性主義方法回歸的日程表。不過,我始終認為,在自然語言處理的研究中,基于語言規則的理性主義方法復興的歷史步伐是不會改變的,基于語言數據的經驗主義方法一定要與基于語言規則的理性主義方法結合起來,這才是自然語言處理發展的金光大道。

參考文獻:

[1]馮志偉.計算語言學基礎[M].北京:商務印書館,2001.

[2]馮志偉.數學與語言[M].北京:世界圖書出版公司, 2011.

[3][美]Jurafsky,D. & Martin,J.H.自然語言處理綜論[M].馮志偉,孫樂譯.北京:電子工業出版社,2005.D7AB807F-15E8-4359-A685-18AB59EF10D4

[4]馮志偉.自然語言處理簡明教程[M].上海:上海外語教育出版社,2012.

[5]馮志偉.中文信息處理與漢語研究[M].北京:商務印書館,1992.

[6][蘇]費爾斯曼.趣味地球化學[M].石英,安吉譯.北京:中國青年出版社,1956.

[7][蘇]吉米多維奇.數學分析習題集[M].李榮涷譯.北京:高等教育出版社,1958.

[8]馮志偉.自然語言處理中的歧義消解方法[J].語言文字應用,1996,(1).

[9]奉國和,鄭偉.國內中文自動分詞技術研究綜述[J].圖書情報工作,2011,(2).

[10]Pater,J.Generative linguistics and neural networks at 60: Foundation, friction, and fusion[J].Language,2019,(1).

[11]Linzen,T.What can linguistics and deep learning contribute each other?——Response to Joe Pater[J].Language,2019,(1).

Dialogue on Natural Language Processing

——Learted Professor Feng Zhiwei Interview

Xu Qin1,Feng Zhiwei2

(1.College of Chinese Language and Literature, Qufu Normal University, Qufu 273165;

2.College of Foreign Languages, Hangzhou Normal University, Hangzhou 311121;

School of Chinese Language and Literature, Xinjiang University, Urumqi 830000, China)

Abstract:Mr. Feng Zhiwei is one of the pioneers of computational linguistics and natural language processing in China. His scholarly treatises have had a far-reaching impact on linguistics. When he was in college, he combined liberal arts and science to study languages mathematically, laying a solid foundation for later entering the field of computational linguistics. Feng pointed out that in the era of big data, knowledge graphs play a very important role in extracting information, but how to automatically use it to obtain implied semantic relationships still needs further efforts. In the intelligence of natural language processing, efforts should be made to achieve a transformation from intuition to rationality. Knowledge graph may provide a feasible way. The next development of natural language processing should combine deep learning with linguistic research, and combine the empirical methods based on language big data with language-based rationalism methods. Their mutual promotion and common improvement will certainly promote the high-quality development of natural language processing.

Key words:natural language processing;logical reasoning;linguistics;computer

作者簡介:1.徐? 琴,女,曲阜師范大學文學院碩士研究生;

2.馮志偉,男,杭州師范大學外國語學院兼職教授,新疆大學中國語言文學學院天山學者。D7AB807F-15E8-4359-A685-18AB59EF10D4

猜你喜歡
計算機
計算機操作系統
穿裙子的“計算機”
趣味(數學)(2020年9期)2020-06-09 05:35:08
基于LabVIEW的計算機聯鎖仿真系統
基于計算機自然語言處理的機器翻譯技術應用與簡介
科技傳播(2019年22期)2020-01-14 03:06:34
計算機多媒體技術應用初探
科技傳播(2019年22期)2020-01-14 03:06:30
信息系統審計中計算機審計的應用
消費導刊(2017年20期)2018-01-03 06:26:40
計算機應用軟件開發技術的幾點探討
電子制作(2017年14期)2017-12-18 07:08:10
計算機網絡安全
iLOCK型計算機聯鎖開發中的需求開發管理
計算機聯鎖系統配置軟件設計與實現
主站蜘蛛池模板: 欧美激情第一区| 久久香蕉国产线看观看精品蕉| 国产亚洲欧美日韩在线观看一区二区| 无遮挡一级毛片呦女视频| 成人午夜免费观看| 色屁屁一区二区三区视频国产| 亚欧成人无码AV在线播放| 大乳丰满人妻中文字幕日本| 99久久精品国产自免费| 五月六月伊人狠狠丁香网| 日韩中文精品亚洲第三区| 色综合天天综合中文网| 国产精品久线在线观看| 久久女人网| 91小视频在线观看免费版高清| 夜夜爽免费视频| 国产男人天堂| 日韩国产亚洲一区二区在线观看| 久久国产精品夜色| 91福利片| 人禽伦免费交视频网页播放| 九九九国产| 亚洲第七页| 国产在线观看精品| 中文字幕在线日韩91| 一区二区理伦视频| 一级全免费视频播放| 国产a在视频线精品视频下载| 亚洲久悠悠色悠在线播放| 国产成人精品免费av| 成人福利在线视频| 亚洲国产成人久久精品软件| 成人一区在线| 在线观看的黄网| 色婷婷在线播放| 91精品综合| 日本久久久久久免费网络| 欧美激情成人网| 国模私拍一区二区| 免费人成在线观看成人片| 精品一区二区三区中文字幕| 一级香蕉视频在线观看| 伊人AV天堂| 久久精品人人做人人综合试看| 这里只有精品在线播放| 午夜精品久久久久久久2023| 国产福利免费观看| 91黄色在线观看| 国产老女人精品免费视频| 久久狠狠色噜噜狠狠狠狠97视色| 依依成人精品无v国产| 国产亚洲美日韩AV中文字幕无码成人 | 国产在线高清一级毛片| 88av在线| 欧美a在线视频| 亚洲最新地址| 精品国产一区二区三区在线观看 | 国产高清在线观看| 黄色网在线免费观看| 国产精品2| 午夜不卡福利| 美女无遮挡免费网站| 中文成人在线| 精品久久人人爽人人玩人人妻| 亚洲黄色高清| 成人国内精品久久久久影院| 成人在线亚洲| 久久99国产精品成人欧美| 欧美一级99在线观看国产| 国产午夜无码片在线观看网站| 天天色天天综合| 亚洲欧美日韩色图| 精品国产99久久| 99热这里只有成人精品国产| 欧美在线国产| 国产精品99一区不卡| 老汉色老汉首页a亚洲| 亚洲国产黄色| 欧美日韩中文字幕二区三区| 欧美曰批视频免费播放免费| 青青久久91| 99热这里只有精品免费|