李詠豪
摘 要:智能科學(xué)技術(shù)的重要研究方向包括機(jī)器是否具有智能的判斷,以及自然語(yǔ)言的處理。本文分析了人類抽象推理方面的能力難以植入現(xiàn)階段機(jī)器,以及判斷一臺(tái)機(jī)器是否智能的方法。另外,利用隱馬爾可夫模型來(lái)解決自然語(yǔ)言中的許多問(wèn)題,同時(shí),基于規(guī)則以及基于統(tǒng)計(jì)的自然語(yǔ)言處理有著各自的優(yōu)缺點(diǎn),而從基于規(guī)則的方法逐步過(guò)渡到基于統(tǒng)計(jì)的方法有深層次的原因。
關(guān)鍵詞:智能科學(xué);自然語(yǔ)言處理;馬爾可夫模型
智能科學(xué)技術(shù)是研究利用機(jī)器來(lái)模擬人類的智能,比如,讓機(jī)器能像人類一樣會(huì)聽,說(shuō),讀,寫,甚至?xí)伎迹瑳Q策等。1950年,英國(guó)數(shù)學(xué)家圖靈發(fā)表了一篇論文,宣告人工智能的正式出現(xiàn)。在智能科學(xué)技術(shù)中,如何判斷一臺(tái)機(jī)器是否有智能是其重要研究方向之一,另外,自然語(yǔ)言處理也是智能科學(xué)技術(shù)的一個(gè)重要方向,它在科技創(chuàng)新中起著較為重要的作用。
1 如何判斷一臺(tái)機(jī)器是否有智能
1.1 人類心智
一個(gè)人的“心智”指的是他各項(xiàng)思維能力的總和。根據(jù)喬治·博瑞博士的定義,心智主要包括以下三個(gè)方面的能力:獲得知識(shí);應(yīng)用知識(shí);抽象推理。而智能科學(xué)與技術(shù)的核心概念是“智能”,偏重于“能”字,強(qiáng)調(diào)心智機(jī)制的實(shí)現(xiàn),跟學(xué)習(xí)、適應(yīng)、感知、理解、推斷、情感、判斷、預(yù)想、創(chuàng)造、行為與意識(shí)等密切相關(guān)。
1.2 人類心智植入機(jī)器
現(xiàn)階段機(jī)器難以植入人類心智抽象推理方面的能力,具體為情感、預(yù)想、創(chuàng)造與意識(shí)。
1.2.1 情感
移情的能力是人類特有的一種心智能力,使我們能夠設(shè)身處地地站在別人的角度,理解和欣賞別人的感情。機(jī)器可以進(jìn)行基本的人際互動(dòng),比如蘋果公司開發(fā)的智能語(yǔ)音助手Siri支持自然語(yǔ)言輸入,并且可以調(diào)用系統(tǒng)自帶的天氣預(yù)報(bào)、日程安排、搜索資料等應(yīng)用,還能夠不斷學(xué)習(xí)新的聲音和語(yǔ)調(diào),提供對(duì)話式的應(yīng)答。盡管Siri是目前最先進(jìn)的智能技術(shù)之一,擁有極高的識(shí)別成功率與類似真人的語(yǔ)音語(yǔ)調(diào),它依然無(wú)法設(shè)身處地地為用戶著想,即在情感的層面上真正地理解用戶。
1.2.2 預(yù)想與創(chuàng)造
機(jī)器也沒(méi)有真正具備預(yù)測(cè)與創(chuàng)造的能力,真正創(chuàng)造顛覆原有的體系。舉例而言,我們運(yùn)用智能技術(shù)研究如何正確分配使能源利用效率達(dá)到最高,而智能技術(shù)卻無(wú)法告訴我們一種新的能源以及相應(yīng)的使用方法,從而徹底改變能源的體系結(jié)構(gòu)。
1.2.3 意識(shí)
之所以難以植入人類的許多心智,與機(jī)器尚未具有意識(shí)有關(guān)。心智的產(chǎn)生從生物學(xué)角度是極其復(fù)雜的,目前對(duì)意識(shí)活動(dòng)的腦定位、腦機(jī)理以及如何在心智活動(dòng)中起作用等問(wèn)題還有很多空白值得去探索研究。但已有的科學(xué)研究證據(jù)也普遍證實(shí)了意識(shí)活動(dòng)與邊緣系統(tǒng)、注意機(jī)制和短時(shí)記憶起碼有著明確的聯(lián)系。目前,人工智能的核心是依賴于大數(shù)據(jù)的增強(qiáng)學(xué)習(xí)機(jī)制,學(xué)習(xí)方式大體分為三種:監(jiān)督式學(xué)習(xí)、非監(jiān)督式學(xué)習(xí)和增強(qiáng)學(xué)習(xí),其中,前兩種需要大數(shù)據(jù)做支撐,最后一種雖然不需要大數(shù)據(jù),但是需要一個(gè)評(píng)估者來(lái)評(píng)估人工智能每個(gè)一個(gè)行為。而心智,通常是沒(méi)有標(biāo)準(zhǔn)的事物,主觀性強(qiáng)。所以,很難通過(guò)構(gòu)造增強(qiáng)學(xué)習(xí)機(jī)制來(lái)訓(xùn)練人工智能完全實(shí)現(xiàn)人類的心智,而要結(jié)合算法與自然機(jī)制。
1.3 判斷機(jī)器是否具有智能
判斷機(jī)器是否具有智能,繞不開圖靈測(cè)試。圖靈測(cè)試由圖靈發(fā)明,指測(cè)試者與被測(cè)試者(一個(gè)人和一臺(tái)機(jī)器)隔開的情況下,通過(guò)一些裝置(如鍵盤)向被測(cè)試者隨意提問(wèn)。進(jìn)行多次測(cè)試后,如果機(jī)器讓平均每個(gè)參與者做出超過(guò)30%的誤判,那么這臺(tái)機(jī)器就通過(guò)了測(cè)試,并被認(rèn)為具有人類智能。
然而,圖靈測(cè)試存在缺陷。蓋爾設(shè)計(jì)了“中文實(shí)驗(yàn)室”,該實(shí)驗(yàn)明確地說(shuō)明了即使通過(guò)測(cè)試,機(jī)器最多具有人工智能,而非人的智能。2014年,一個(gè)聊天機(jī)器人就曾通過(guò)了圖靈測(cè)試,然而它顯然是不具有智能的,通過(guò)圖靈測(cè)試只能說(shuō)明該機(jī)器在文字的使用上近似于人類。
判斷機(jī)器是否具有智能,可以在傳統(tǒng)的圖靈測(cè)試基礎(chǔ)上改進(jìn),解決圖靈測(cè)試的問(wèn)題。具體方法是讓機(jī)器通過(guò)一份標(biāo)準(zhǔn)化的考試。這種方法結(jié)合了語(yǔ)義的理解(讀懂題目)與解決各類問(wèn)題的能力(答題),類似于圖靈測(cè)試,但是具有更強(qiáng)的確定性,也涉及更多智能的方面。同時(shí),這類考試原本目的不是為了測(cè)試機(jī)器的智能,考題非常靈活,包含許多閱讀理解并給出觀點(diǎn)的題目,文科強(qiáng)調(diào)言之有理,而理科需要精確的結(jié)果,綜合性強(qiáng)。
2 隱馬爾可夫模型
自然語(yǔ)言的處理(如語(yǔ)音識(shí)別、詞性劃分、詞語(yǔ)切分、翻譯等)本質(zhì)上都是通信模型。比如在語(yǔ)音識(shí)別中,機(jī)器通過(guò)接受到的信息(O1,O2,O3,…)推測(cè)人要傳遞的信息(S1,S2,S3,…),這樣,便從語(yǔ)法,語(yǔ)義的道路回歸到了利用隱馬爾可夫模型來(lái)解決自然語(yǔ)言處理問(wèn)題。
隱馬爾科夫模型有如下特點(diǎn):狀態(tài)St是不可見的;各狀態(tài)St只與前一狀態(tài)St-1有關(guān)(馬爾科夫假設(shè));每個(gè)狀態(tài)都輸出一個(gè)符號(hào)Ot,且該符號(hào)只與一個(gè)狀態(tài)St有關(guān)(獨(dú)立輸出假設(shè))。可以發(fā)現(xiàn),隱馬爾科夫模型的性質(zhì)與自然語(yǔ)言的性質(zhì)具有關(guān)聯(lián)性,以語(yǔ)音識(shí)別為例,對(duì)于機(jī)器而言人要傳遞的信息是不可見的,而接受到的音頻信息是可見的;從發(fā)音和語(yǔ)義來(lái)看,人類語(yǔ)音單字的發(fā)音與句子中的單字都具有前后關(guān)系;將輸入信息劃分為各單位信息進(jìn)行分析,形成一個(gè)狀態(tài)序列,每一個(gè)狀態(tài)都輸出機(jī)器解碼后的信息(即符號(hào)Ot)。
3 基于規(guī)則的自然語(yǔ)言處理
基于規(guī)則的自然語(yǔ)言處理可以分為基礎(chǔ)層,認(rèn)知層和應(yīng)用層,其中,基礎(chǔ)層包括句法分析和語(yǔ)義處理,認(rèn)知層則包括自然語(yǔ)言理解,應(yīng)用層包括語(yǔ)音識(shí)別、機(jī)器翻譯、自動(dòng)回答和自動(dòng)摘要等。
3.1 基于規(guī)則的自然語(yǔ)言處理的優(yōu)缺點(diǎn)
早在18、19世紀(jì)西方已有大量對(duì)于各種語(yǔ)法的形式化總結(jié),形成十分完備的體系。構(gòu)詞法、語(yǔ)法規(guī)則與詞性等現(xiàn)成的規(guī)則很容易用計(jì)算機(jī)算法描述。在句法分析方面,任何一個(gè)句子都可以被分析成一棵文法分析樹。基于規(guī)則的自然語(yǔ)言處理方法可以有效地處理結(jié)構(gòu)依賴性強(qiáng)的復(fù)雜句子,并可以雙向使用,既可以應(yīng)用于分析,也可以應(yīng)用于生成,具有普適性,適用于許多不同語(yǔ)種。但是,在語(yǔ)義分析方面,相較于語(yǔ)法,語(yǔ)義難以在計(jì)算機(jī)中表達(dá)出來(lái)。在文法分析方面,文法分析樹非常復(fù)雜,單純基于文法規(guī)則的分析器無(wú)法處理復(fù)雜的句子;文法規(guī)則需要人工總結(jié),現(xiàn)有規(guī)則數(shù)量不足且文法規(guī)則之間會(huì)出現(xiàn)矛盾。
3.2 基于統(tǒng)計(jì)的自然語(yǔ)言處理的優(yōu)缺點(diǎn)
通過(guò)訓(xùn)練語(yǔ)言數(shù)據(jù),可以獲取語(yǔ)言數(shù)據(jù)中的統(tǒng)計(jì)知識(shí),從而建立起語(yǔ)言統(tǒng)計(jì)模型,并使得在文字的自動(dòng)處理中具有較高的準(zhǔn)確率。依賴訓(xùn)練語(yǔ)言數(shù)據(jù)規(guī)模,隨著用于訓(xùn)練的語(yǔ)言數(shù)據(jù)量增多,處理效果變好,所以可以通過(guò)擴(kuò)充語(yǔ)料庫(kù)加強(qiáng)基于統(tǒng)計(jì)的自然語(yǔ)言處理模型的性能。在一些細(xì)節(jié)性的語(yǔ)言處理上明顯優(yōu)于基于規(guī)則的自然語(yǔ)言處理,適合用來(lái)模擬那些有細(xì)微差別的模糊概念等。但是,數(shù)據(jù)質(zhì)量對(duì)于模型效率的影響非常大。隨著語(yǔ)料庫(kù)規(guī)模的增大,可能出現(xiàn)“數(shù)據(jù)稀疏”,即語(yǔ)料庫(kù)中許多數(shù)據(jù)缺失或者稀少的現(xiàn)象,導(dǎo)致在語(yǔ)音識(shí)別時(shí)無(wú)論音頻多么清晰都無(wú)法給出正確的識(shí)別結(jié)果。
4 從基于規(guī)則的方法逐步過(guò)渡到基于統(tǒng)計(jì)的方法的原因分析
自然語(yǔ)言處理從基于規(guī)則的方法逐步過(guò)渡到基于統(tǒng)計(jì)的方法,其背后包含了理性主義和經(jīng)驗(yàn)主義之爭(zhēng),以及慣性思維的巨大影響。
基于規(guī)則的方法體現(xiàn)了理性主義。理性主義認(rèn)為,人的很大一部分知識(shí)是與生俱來(lái)的,由遺傳決定,可以用“真理在心中,靠演繹獲得”來(lái)概括。在自然語(yǔ)言問(wèn)題中,理性主義主張人工建立語(yǔ)言知識(shí)處理體系,將自然語(yǔ)言理解為符號(hào)結(jié)構(gòu),通過(guò)詞法分析器對(duì)輸入的句子進(jìn)行結(jié)構(gòu)分析。基于統(tǒng)計(jì)的方法體現(xiàn)了經(jīng)驗(yàn)主義。經(jīng)驗(yàn)主義認(rèn)為,人腦并不是一開始就具有語(yǔ)言成分的處理方法,而是通過(guò)其他能力掌握了具體的語(yǔ)言結(jié)構(gòu)。
經(jīng)驗(yàn)主義的崛起與20世紀(jì)70年代計(jì)算機(jī)硬件技術(shù)的飛速發(fā)展與統(tǒng)計(jì)學(xué)中重要概念的提出(如隱馬爾可夫模型)息息相關(guān),這些技術(shù)使得基于統(tǒng)計(jì)的自然語(yǔ)言處理方法具有可行性,從而表明在該領(lǐng)域,經(jīng)驗(yàn)主義優(yōu)于理想主義。
然而,理性主義與經(jīng)驗(yàn)主義并不是絕對(duì)對(duì)立的。他們各具有優(yōu)點(diǎn)與缺點(diǎn),不可能徹底解決自然語(yǔ)言處理這一難題。事物總是在不斷發(fā)展的,只有通過(guò)取長(zhǎng)補(bǔ)短,相互結(jié)合,共同發(fā)展,才能更上一層樓。我們并不能說(shuō)理性主義是過(guò)時(shí)的,而經(jīng)驗(yàn)主義就更先進(jìn)。
最初選擇基于規(guī)則的方法的主要原因是慣性思維的后果。20世紀(jì)60年代時(shí),對(duì)自然語(yǔ)言的研究已經(jīng)十分深入,具有大量形式化的總結(jié)。此時(shí)科學(xué)家們會(huì)優(yōu)先選擇已有大量研究成果的基于規(guī)則的自然語(yǔ)言處理加以研究,而不是缺乏統(tǒng)計(jì)數(shù)據(jù)與數(shù)學(xué)模型的基于統(tǒng)計(jì)自然語(yǔ)言處理。人們習(xí)慣性地認(rèn)為,隨著自然語(yǔ)言的語(yǔ)法概括能力越來(lái)越強(qiáng),計(jì)算機(jī)的計(jì)算能力的不斷提高,基于規(guī)則的自然語(yǔ)言處理會(huì)逐步解決自然語(yǔ)言理解的問(wèn)題,然而,由于慣性思維,基于規(guī)則的自然語(yǔ)言處理的一些根本性的問(wèn)題被忽略了。可以看出,人們傾向于根據(jù)現(xiàn)有的資源多少以及固有理解來(lái)決定采用什么方法研究某個(gè)問(wèn)題。20世紀(jì)70年代時(shí),基于規(guī)則的研究幾乎宣告失敗,而計(jì)算機(jī)與統(tǒng)計(jì)領(lǐng)域的蓬勃發(fā)展加強(qiáng)了人們對(duì)經(jīng)驗(yàn)主義方法的自信,自然而然使研究的思路從基于規(guī)則的方法逐步過(guò)渡到基于統(tǒng)計(jì)。
5 結(jié)語(yǔ)
本文分析了判斷機(jī)器是否具有智能的方法,同時(shí),針對(duì)自然語(yǔ)言處理中常用的隱馬爾可夫模型作了介紹,并分析了基于規(guī)則和基于統(tǒng)計(jì)的自然語(yǔ)言處理各自的優(yōu)缺點(diǎn),同時(shí),進(jìn)一步分析了從基于規(guī)則的方法逐步過(guò)渡到基于統(tǒng)計(jì)的方法的深層次原因。
參考文獻(xiàn):
[1]王飛,陳立,易綿竹,等.新技術(shù)驅(qū)動(dòng)的自然語(yǔ)言處理進(jìn)展[J].武漢大學(xué)學(xué)報(bào)(工學(xué)版),2018,051(008):669-678.
[2]李生.自然語(yǔ)言處理的研究與發(fā)展[J].燕山大學(xué)學(xué)報(bào),2013(05):4-11.
[3]姜倩盼.自然語(yǔ)言處理的挑戰(zhàn)與未來(lái)[J].信息與電腦:理論版,2013,000(007):219-221.
[4]王茵,周學(xué)廣,陸健.基于條件隨機(jī)場(chǎng)的中文情感分析方法比較研究[J].計(jì)算機(jī)與數(shù)字工程,2017,045(009):1703-1707,1730.
[5]馮志偉.當(dāng)前自然語(yǔ)言處理發(fā)展的幾個(gè)特點(diǎn)[J].暨南大學(xué)華文學(xué)院學(xué)報(bào),2006(01):38-44.