王連柱
?
機器學習應用于語言智能的研究綜述*
王連柱1,2
(1.北京外國語大學 中國外語與教育研究中心,北京 100089;2.新鄉醫學院 外語學院,河南新鄉 453003)
文章首先對機器學習和語言智能進行了概念界定,隨后將機器學習應用于語言智能的研究分為萌芽時期、發展時期、繁榮時期等三個階段,并綜述了各歷史階段中機器學習在語言智能中的應用情況。為了探討語言智能機器人背后的技術原理,文章以微軟“小冰”為例,論述了機器學習理論和算法在情感聊天、智能作詩、智能新聞寫作中的作用。最后,文章從機器學習方式、算法、語言智能水平和產業規模等四個方面,就機器學習應用于語言智能的未來趨勢進行了展望,以期為未來的機器學習研究和語言智能產業發展提供參考。
機器學習;語言智能;人工智能;機器翻譯
自1946年世界上第一臺計算機誕生至今的70余年間,人們不斷地思索如何利用計算機服務于人類各項事業。時至今日,計算機已被廣泛地應用于科學計算、數據處理、過程控制、生產自動化、人工智能等領域。隨著計算機軟硬件設備的迭代升級,以及數理統計等基礎科學的跨越式發展,人們已不再滿足于僅讓計算機從事程序執行、數據運算之類的簡單工作,而是設法讓計算機自行推理、自主學習。計算機的自主學習即機器學習(Machine Learning),已在若干學科前沿發揮革命性的作用。如天文學方面,美國國家航空航天局于2017年12月15日發布聲明,谷歌人工智能工程師Shallue等利用機器學習,從開普勒望遠鏡項目對外公布的海量數據中成功發現第8顆行星——開普勒-90i(Kepler-90i)。當然,機器學習的“主陣地”——自然語言處理,也并沒有被遺忘。隨著機器學習理論、算法的發展和語料庫、知識庫的健全,自然語言處理這個“主業”日臻完善,正不斷朝著規模化和智能化的方向發展。而語言智能機器人,如美國的“索菲亞”(Sophia)、中國的“佳佳”、日本的“安蘇娜”(Asuna)等,已經具備一定的智能語音交互功能,語言智能的新時代正在快步走來[1]。
機器學習的核心問題是學習。Simon認為:“學習是系統中的任何改進,這種改進使得系統在重復同樣的工作或進行類似的工作時,能完成得更好。”[2]機器學習不同于人類學習,具體表現為:①學習依靠的資源不同。人類學習依靠的是人類對整個世界的經驗,即人類的所聽、所見、所讀、所想等;而機器學習依靠的是各種可獲得的標記(Labeled)或者非標記(Unlabeled)的歷史數據。②做出預測的依據不同。人類做出預測或者進行演繹推理,依據的是歸納出來的各種原理和規律;而機器做出預測或判斷,依據的是各種算法模型。③學習效率不同。人類學習過程緩慢,抗干擾性差,且效率較低;而機器學習可以更加迅速、高效地獲取知識和技能。可以說,機器學習是包括語言智能在內的人工智能的核心[3]。
針對機器學習的重點,學者們提出了各自不同的觀點,如Samuel[4]強調機器學習過程中的去程序化,Mitchell[5]和Mooney[6]強調學習經驗使計算機程序自身的性能得以改善,而Carbonell等[7]強調機器學習的策略以及知識或技能表征的方式。綜合上述觀點,本研究認為機器學習是指計算機模擬人類的學習行為,通過識別現有知識,以獲取新知識或新技能,或者重組已有的知識結構,不斷改善性能和實現自身完善的過程、原理和方法[8][9],其主要目標是建立學習模型、發展學習理論、設計數理算法和建立應用系統[10]。其中,建立應用系統是指把機器學習的成果應用于包括語言智能在內的各種人工智能,以更好地服務于人類社會。
研究機器學習貴在應用,即把研究成果應用于學科領域。機器學習的應用領域十分廣泛,Carbonell等[11]總結出19個應用領域——其中,與語言智能有關的有3個:語音識別/合成、自然語言處理和計算機編程。這三個領域涉及的問題各不相同,以自然語言處理領域為例,機器學習側重于解決該領域中的詞性標注、句法標注、語義標注、詞義消歧、指代消解、信息抽取等問題[12],以達到提升信息處理效率和效度的目標。
機器學習技術的大量應用,使機器更善于聽懂人類的語言,并使用人類的語言與人類交流。機器與人類的實時語言交互體現了語言智能的內涵,即利用機器學習算法、知識庫和語音識別/合成技術,智能化地理解、生成語言,實現人機交互。如今,人機智能交互已進入生產、生活領域,誕生了許多種類的語言智能機器人,如自動翻譯機器人、新聞寫作機器人、作詩機器人、情感陪護機器人、社交機器人、客服機器人等。
為解答“機器能否思考”(Can Machines Think?)的疑問,英國數學家Turing[13]例舉了一個由三方參與的“模擬游戲”,采用“問答”形式來檢測學習機器的智商,這就是后來的“圖靈測試”——當時,Turing使用的名稱還是“學習機器”。
“機器學習”這一術語由西洋跳棋程序的研制者Samuel于1956年首次提出,他將這一新術語定義為“不顯式編程地賦予計算機能力的研究領域”[14]。機器學習應用于語言智能的研究大致可分為萌芽時期、發展時期和繁榮時期等三個階段,這三個階段見證了語言智能從單純語言翻譯向復雜人機對話、智能寫作等多領域應用的轉變。
上個世紀80年代以前,語言智能的研究尚處于低級階段,研究的主要內容是機器翻譯、自然語言理解和相關的算法。
(1)機器學習與機器翻譯
1954年,美國喬治敦大學利用國際商業機器(International Business Machines,IBM)公司生產的IBM-701型計算機,在世界首次進行了俄英機器翻譯實驗,獲得巨大成功。蘇聯、意大利、英國、德國、日本、中國等不甘示弱,也紛紛進行機器翻譯實驗。1959年,我國在104型電子計算機上首次進行了俄漢機器翻譯實驗[15]。但是語言遠比人們想象的要復雜,早期翻譯主要采用查字典的方法,沒有考慮句法分析等,譯文可讀性差,難以產生效益。1966年,美國自動語言處理咨詢委員會發布《語言與機器》()報告,否定了機器翻譯[16],因為機器翻譯難以攻克“語義障礙”。隨后,機器翻譯研究陷入低潮。
60年代末開始,機器翻譯研究開始重視句法和語義,同時把句法和算法分開。這一時期誕生的較為典型的機器翻譯系統是美國喬治敦大學的俄英機器翻譯系統SYSTRAN[17]和法國格勒諾布爾醫科大學的俄法機器翻譯系統ARIANE-78[18]。此外,加拿大的實用翻譯系統TAUM-METEO也具有里程碑意義[19],它可以每天翻譯1500~2000篇天氣預報。由于此時期的機器翻譯采用了基于邏輯表示的“連接主義”學習系統、基于決策理論的學習技術和基于統計學的學習算法(如Earley算法、Beyesian算法),外加應用了詞典和語料庫,故使句法成功率得到顯著提升,詞義消歧、多義詞選擇也得到明顯改善。
(2)機器學習與自然語言理解
70年代,自然語言理解研究取得突破,出現了多個利用程序推演進行語義、語用和語境分析的系統,如PAM系統和SHRDLU系統[20]。其中,SHRDLU系統是1972年由美國麻省理工學院的Winograd[21]設計的,該系統較好地把句法、語義分析與邏輯推理結合起來,可以實現用自然語言指揮機器人擺弄積木[22]。
80年代初至20世紀末是機器學習和語言智能快速發展的時期,學習理論、算法、語料庫、知識庫等新概念、新事物在這一時期不斷興起。其中,影響較大的機器學習理論和算法有:80年代的歸納學習(Inductive Learning)和決策樹(Decision Tree)算法、歸納邏輯程序設計(Inductive Logic Programming,ILP)算法、神經網絡反向傳播(Back Propagation,BP)算法[23]等;90年代的統計學習(Statistical Learning)和支持向量機(Support Vector Machine,SVM)算法[24]、集成學習(Ensemble Learning)和Boosting、Bagging算法等。機器學習理論和算法的快速發展,推動了自然語言處理、機器翻譯和人機對話等研究逐步走向成熟。
(1)機器學習與自然語言處理
在自然語言處理方面,億詞級的英國國家語料庫(British National Corpus,BNC)實現了自動詞性標注,為詞典編制、自然語言理解、機器翻譯奠定了基礎。BNC的自動詞性標注是基于概率統計進行的標注,準確率能達到96%~97%。此外,世界上許多大學和研究機構在90年代建立了不同語種的樹庫,其中建設最早、影響力最大的當屬賓州樹庫(The Penn Treebank)。目前,樹庫實現了在線檢索和共享,谷歌和斯坦福大學等更是發起并建設了通用依存樹庫共享平臺①。
(2)機器學習與機器翻譯
統計方法除了可以應用于詞性標注、句法標注,還可以應用于機器翻譯。正如Hutchins所言,自1989年以來,基于規則、統計、實例、語料庫、知識庫的方法已經把機器翻譯帶入了一個新紀元②。90年代初,IBM工程師Brown等[25]在不借助翻譯規則、術語庫的情況下,僅僅依靠平行語料庫和統計算法,短短幾年內就構建出了一個與SYSTRAN媲美的翻譯系統。
(3)機器學習與人機對話
90年代,語言智能方面取得的成功還包括自動問答系統和自動語音識別系統。1993年,美國麻省理工學院的Katz及其同事開發了世界上首個基于網頁的問答系統START——目前,該系統可以回答幾百萬個關于地點、影片、人物、字典上的定義等英語問題。另外一個比較成熟的問答系統是AnswerBus,這是一種多語種、多引擎的句級信息抽取系統,支持5種語言和5種搜索引擎。但是,START和AnswerBus這兩個問答系統需要手工輸入,而自動語音識別技術的發展可以有效解決手工輸入的問題。1997年,IBM推出語音識別軟件ViaVoice,使用者可自行短時訓練該軟件,使其適應個體語音和語調。
在機器學習理論、算法等蓬勃發展的新世紀,語言智能進入了前所未有的繁榮時期。進入21世紀,學習理論從統計學習向集成學習、深度學習(Deep Learning)轉變,Adaboost、隨機森林(Random Forests)、卷積神經網絡(Convulsion Neural Networks)、深度信念網絡(Deep Belief Networks)等算法應運而生并不斷迭代升級。2006年,加拿大多倫多大學的Hinton等[26]在《科學》()雜志上發表關于運用神經網絡削減數據維度的文章,給出了訓練深層網絡的新思路,從而拉開了深度學習的大幕。如今,深度學習越來越火熱,常被應用于工程實踐,如機器翻譯、自然語言理解和智能語音交互等。
(1)機器學習與機器翻譯
2012年11月,微軟在第十四屆“二十一世紀的計算”學術研討會上,公開演示了全自動同聲傳譯系統——演講者用英文發言,后臺的計算機即時自動完成語音識別、英中機器翻譯和中文語音合成,運行非常流暢,其中的關鍵支撐技術就是深度學習[27]。2016年9月,谷歌公布基于網頁和APP的神經網絡機器翻譯(Google Neural Machine Translation,GNMT),結束了始于1989年的IBM基于短語的機器翻譯(Phrase-Based Machine Translation,PBMT)模式。與谷歌先前基于短語的機器翻譯相比,基于神經網絡的機器翻譯將錯誤率減少約60%[28]。
(2)機器學習與自然語言理解
2018年1月,在斯坦福大學發起的SQuAD(Stanford Question Answering Dataset)機器閱讀理解挑戰賽中,由微軟亞洲研究院和阿里巴巴iDST自然語言處理部提交的智能模型分別實現了82.650%、82.440%的精準匹配,首次超越了人類于2016年創造的82.304%的精準率。
(3)機器學習與智能語音交互
語音識別/合成、自然語音理解、知識庫檢索等技術的快速發展,使機器人已經具備一定的智能語音交互功能。以美國的“索菲亞”為例,她不僅可以“逼真地”做出各種動作與表情,還可以“幽默地”與人類交流與溝通,故自2015年4月誕生起就引起了人們的高度關注。
微軟的“小冰”是目前全球最大的交互式人工智能系統之一。該系統不僅實現了智能情感聊天,而且做到了智能作詩、智能新聞寫作。從2014年5月29日首次亮相,到2017年8月22日第五版發布,“小冰”已成為流量規模最大、應用范圍最廣的情感社交聊天機器人。豐富的實戰經驗和良好的業績表現,為“小冰”在更多語言場景中的應用奠定了基礎。目前,“小冰”已成功登陸微信、微博、Facebook、中國東方航空、東方衛視、Window 10等應用平臺。此外,微軟還開發了“小娜”(Cortana)、日本版的“小冰凜菜”(Rinna)和美國版的“Zo”等聊天機器人。“小冰”等之所以能實現智能情感聊天,離不開專門用途語料庫的建設、深度學習理論的支撐和深度神經網絡技術的應用。
在智能作詩方面,由“小冰”創作的現代詩集《陽光失了玻璃窗》于2017年5月19日正式出版。該詩集共收錄139首詩,精選自“小冰”創作的70,928首詩。這是人類歷史上第一部100%人工智能詩集,運用的正是深度神經網絡等算法。在模擬人類作詩過程的基礎上,經過上萬次的訓練,“小冰”才具有了詩歌創作的能力。除“小冰”外,由清華大學語音和語言技術中心開發的“薇薇”也具有這種作詩能力。2016年3月20日,該中心宣布,他們的作詩機器人“薇薇”通過了中國社會科學院唐詩專家的評定和“圖靈測試”,即“薇薇”創作的古詩詞中,有30%以上(31%)被認為是人創作而非機器創作的。
而在智能新聞寫作方面,“小冰”自2016年12月起正式入職《錢江晚報》,成為該報的一名特約記者。與人類記者相比,機器記者雖然存在問題思考不夠深刻、情感投入不夠豐富等弱點,但在速度和準度方面卻頗有優勢。正因為如此,研究者紛紛進行了寫作機器人的研發。2009年10月11日,美國西北大學研發的StatsMonkey系統曾撰寫了一篇關于棒球比賽的新聞稿。此后,世界上誕生了多款寫作機器人,如國外《洛杉磯時報》的Quakebot、美國聯合通訊社(簡稱“美聯社”)的Wordsmith和《紐約時報》的Blossombot等,國內騰訊的Dreamwriter、新華社的“快筆小新”和人民日報的“小融”等。這些機器人之所以能夠撰寫稿件,其背后的技術支撐就是大數據和機器學習算法。
隨著計算機硬件尤其是神經網絡處理單元(Neural-network Processing Unit,NPU)的研發與改進,機器學習會變得更加強大,并觸發包括語言智能在內的人工智能領域的更大變革。基于對計算機硬件、機器學習理論和算法等發展態勢的分析與研判,本研究將機器學習應用于語言智能的未來趨勢總結如下:
①機器學習方式的升級——監督學習、半監督學習將向無監督學習、預測學習(Predictive Learning)轉變。2017年5月,谷歌發布自動機器學習(Auto Machine Learning,AutoML)系統。該系統的獨特之處在于,機器成了獨立于人類之外的另一架構師,它可以自主選擇算法模型、模型參數,并自動評估模型質量,以獲得更好的結果。目前,該系統設計的模型與專業研發工程師設計的模型不分伯仲,可以預計,該系統將逐步取代部分機器學習研發工程師。此外,由美國紐約大學LeCun提出的預測學習③讓機器擁有了“共識”,通過使用機器,給可以獲得的任意信息建模,來預測感知對象的未來,從而實現推理和規劃的結合。總之,未來的機器學習將開啟以自主學習為主、以人工干預為補充的新局面。
②算法的換代——機器學習算法將改變原來單行、單任務的做法,逐步朝著并行化、層次化、模塊化的方向發展。算法系統會將復雜的任務拆分成若干簡單的子任務,交由不同的算法模塊來執行,這樣既可發揮每個模塊的專長,也可進行任務的并行化運算,減少任務響應時間。此外,根據神經元理論,建立深層神經網絡算法,可以實現對成千上萬互聯互通神經元的監測。
③語言智能水平的提升——當機器學習理論、算法的進步映射到語言智能上時,就會提升語言智能的水平。李宇明[29]列舉了機器給人類語言生活帶來變革的九大職業,其中包括講解員、引導員、后臺客服、翻譯、秘書、記者等,而這些職業中90%的工作在未來十年將被機器代替。以新聞記者的工作為例,未來的機器不僅能夠組稿、寫稿,還可以幫助處理假新聞。
④產業規模的擴大——語言智能的應用場景將不再局限于機器翻譯、人機對話等,而是不斷向智能家具、語音導航、可穿戴設備、教育等蔓延。《新一代人工智能發展白皮書(2017)》顯示:2017年,全球人工智能核心產業規模已超過370億美元,預計2020年將超過1300億美元[30]。可以預見,包括語言智能在內的智能產業將成為未來企業巨頭競爭的制高點,也將引領世界經濟邁向新征程。
通過以蒸汽機、電力和計算機為技術標志的三次工業革命,人類社會已相繼完成了機械化、電氣化和信息化。而在創新工場董事長、微軟前全球副總裁李開復等[31]看來,人工智能極有可能成為下一次工業革命的核心驅動力。歸根結底,人工智能就是讓計算機模擬人類的智能行為,來完成以往需要人類智力才能完成的工作。目前,人工智能已被應用于自動駕駛、疾病診斷、藝術創作、智能金融等領域,Turing[32]更是預言:機器最終會與人在所有智能領域里競爭。
在語言生活領域,機器正與語言工作者一起參與人類的生產、生活,并已凸顯其速度快、抗干擾強等優勢。機器可以成為人類語言生活的助手,并為縮小人類溝通的鴻溝、減少人際間的隔閡作出貢獻。當然,機器能夠輔助人類完成一定的交際任務,離不開數據科學家、工程師、統計學家等專家的集體智慧。語言智能技術的不斷發展,對這些專家提出了更高的要求。未來,專家們要做的不僅僅是改進和升級機器學習理論、算法,還要讓未來的語言智能更富靈性、更具感染力。盡管語言智能發展之路還很漫長,遇到的阻力也不少,但我們有理由相信:語言智能的明天肯定會更好!
[1][29]李宇明.迎接與機器人共處的時代[N].光明日報,2017-8-6(12).
[2]Simon H A. Why should machines learn?[A]. Michalski R S, Carbonell J G, Mitchell T M. Machine learning: An artificial intelligence approach[C]. Berlin: Springer-Verlag, 1983:28.
[3][14]周志華.機器學習[M].北京:清華大學出版社,2016:18、22.
[4]Samuel A L. Some studies in machine learning using the game of checkers[J]. IBM Journal on Research and Development, 1959,(3):210-229.
[5](美)Mitchell T M著.曾華軍,張銀奎,等譯.機器學習[M].北京:機械工業出版社,2003:2-3.
[6][12]Mooney R J. Machine learning[A]. Mitkov R. The Oxford handbook of computational linguistics[C]. Oxford: Oxford University Press, 2003:376、386-392.
[7][11]Carbonell J G, Michalski R S, Mitchell T M. An overview of machine learning[A]. Michalski R S, Carbonell J G, Mitchell T M. Machine learning: An artificial intelligence approach[C]. Berlin: Springer-Verlag, 1983:7、13.
[8]陳文偉,陳晟.知識工程與知識管理[M].北京:清華大學出版社,2010:166.
[9]劉潤清.外語教學中的科研方法(修訂版)[M].北京:外語教學與研究出版社,2015:492.
[10]楊忠祥.機器學習研究的發展現狀與動向[J].信息與控制,1987,(1):34-37.
[13][32]Turing A M. Computing machinery and intelligence[J]. Mind, 1950,(236):433-460.
[15]劉涌泉.計算語言學在我國的發展[J].現代語文:高中版,2002,(7):44-45.
[16]ALPAC. Languages and machines: Computers in translation and linguistics[R]. Washington, D. C.: National Academy of Sciences, 1966:32.
[17][18]劉穎.計算語言學(修訂版)[M].北京:清華大學出版社,2014:11、12.
[19]馮志偉.機器翻譯與語言研究(上)[J].術語標準化與信息技術,2007,(3):39-43.
[20]馮志偉.計算語言學的歷史回顧與現狀分析[J].外國語,2011,(1):9-17.
[21]Winograd T. Understanding natural language[J]. Cognitive Psychology, 1972,(1):1-191.
[22](美)Jurafsky D, Martin J H著.馮志偉,孫樂譯.自然語言處理綜論[M].北京:電子工業出版社,2005:9.
[23]Rumelhart D E, Hinton G E, Williams R J. Learning internal representations by error propagation[A]. Rumelhart D E, McClelland J L. Parallel distributed processing: Explorations in the microstructure of cognition[C]. Cambridge, MA: The MIT Press, 1986:318-362.
[24]Cortes C, Vapnik V N. Support-vector networks[J]. Machine Learning, 1995,(3):273-297.
[25]Brown P F, Pietra V J D, Pietra S A D, et al. The mathematics of statistical machine translation: Parameter estimation[J]. Computational Linguistics, 1993,(2):263-311.
[26]Hinton G, Salakhutdinov R. Reducing the dimensionality of data with neural networks[J]. Science, 2006,(5786):504-507.
[27]盧鶇翔.DNN與微軟同聲傳譯系統背后的故事[J].程序員,2013,(6):30-33.
[28]Wu Y H, Schuster M, Chen Z F, et al. Google’s neural machine translation system: Bridging the gap between human and machine translation[OL].
[30]李颋,周珉峰,馬良,等.新一代人工智能發展白皮書(2017)[R].北京:中國電子學會,2018:30-31.
[31]李開復,王詠剛.人工智能[M].北京:文化發展出版社,2017:146.
①通用依存樹庫共享平臺的訪問網址:http://universaldependencies.org/。
②此觀點源自1993年7月英國學者Hutchins在日本神戶召開的第四屆機器翻譯高層會議上所作的報告。
③2016年12月,在西班牙巴塞羅那舉辦的神經信息處理系統(Neural Information Processing Systems,NIPS)年會上,LeCun受邀發表主旨演講,并在演講中提出用“預測學習”代替“無監督學習”這一傳統分類。
A Review on the Application of Machine Learning in Language Intelligence
WANG Lian-zhu1,2
Firstly, this paper defined the concept of Machine Learning (ML) and Language Intelligence (LI). Then, this paper divided the research of the application of ML in LI into three periods of budding period, progressive period and flourishing period, and further summarized the application situations of ML in LI at different history stages. In order to discuss the technical principle behind LI robot, this paper took the Microsoft’s “Xiaobing” as an example to analyze the role of ML theory and algorithm in emotional chat, intelligent poetry and intelligent news writing. Finally, the future development of applying ML in LI was presented from four perspectives of ML mode, algorithm, LI level and industry scale, expecting to provide reference for the future ML research and the LI industry development.
machine learning; language intelligence; artificial intelligence; machine translation
G40-057
A
1009—8097(2018)09—0066—07
10.3969/j.issn.1009-8097.2018.09.010
本文為教育部人文社會科學研究青年基金項目“基于歷時英漢平行語料庫的醫學文獻翻譯研究”(項目編號:14YJC740084)、河南省哲學社會科學規劃項目“醫學文獻歷時英漢平行語料庫的創建、加工及應用研究”(項目編號:2016BYY011)的階段性研究成果。
王連柱,北京外國語大學在讀博士,新鄉醫學院講師,研究方向為語料庫語言學、計算語言學等,郵箱為lianzhuwang@126.com。
2018年3月31日
編輯:小米