約翰PAVLU
思維,AI難以突破的界限
人工智能語音技術,可能是繼互聯網后最重要的發明,作家詹姆斯·弗拉霍斯在他的最新著作《跟我講話:人工智能語音技術如何改變我們的生活》中說:“語言,是人類與人工智能交互的最理想模式,無論是復雜的計算機編程語言,還是觸摸屏與鼠標,都比不上利用語音進行人機交互。對于我們來說,語音交互是最簡捷、清晰、沒有技能門檻的模式。”
物聯網加語音交互加智能設備,共同構建了未來人類生活的日常場景。在現實生活中,人類已經越來越習慣用語言指揮人工智能為自身服務:通過向智能家居設備下達語音指令,獲取影音娛樂、天氣資訊和交通狀況;上班通勤途中,我們通過車載語音助手規劃行車路線,在網購剁手中直接和人工智能語音客服溝通。
去年雙11,淘寶天貓平臺98%以上的電話客服由語音AI提供,日均達到6億余次。知名咨詢公司高德納曾在去年作出預計,10年后,人類每天與智能設備進行的語言交流總量可能將占據我們日常語言交流的三分之一。
不過,我們已經遠遠不滿足于這種簡單的淺層交流。“讓機器聽懂人類以自身語言習慣發出的指令”,無疑是人工智能研究界意圖攻克的“最后堡壘”。而這個技術突破的“難點”似乎近在眼前。
2017年,華盛頓大學及谷歌旗下人工智能公司DeepMind合作,推出一項名為“GLUE”的閱讀理解語言能力測試,機器的測試成績慘不忍睹,似乎人工智能主導的自然語言處理系統完全無法理解人類語言的豐富性。然而就在當年10月,谷歌推出了一種新語言訓練模型,綽號為BERT,僅用六個月的時間就把測試成績從D-提升到了B-。隨后,微軟和阿里巴巴不斷地修正BERT模型、相互超越,在GLUE排行榜上輪換頭名。
現在,在GLUE閱讀能力測試中,人類已經無法與AI抗衡。到了這個階段,研發人工智能語言模型極為燒錢,訓練一個BERT模型租用云算力的費用大概是7000美元,而(自回歸語言模型)GPT-3所需要的算力是前者的1900多倍,它所依托的數據庫,是一個單詞總數達到3000億,來自互聯網各類平臺的人類語言資訊庫,費用大概是千萬美元級。所以,如果沒有微軟當年投資給OpenAI的十億美元,我們恐怕也無法再讀到GPT-3“寫作”的友好宣言。
人工智能能夠愉快地勝任客服、播音員、同聲翻譯,甚至新聞通稿撰寫者,并不意味著它能夠和人類一樣思維,能和人類展開“合情合理”的自由對話,甚至情感互動。
人工智能與語言處理
人工智能已經能在國際象棋、電子游戲和模擬空戰中輕松戰勝人類,為何在對話中依舊如此笨拙?加州大學伯克利分校的斯圖爾特·羅素教授在剛出版的《人類相容:人工智能與控制問題》一書中給出了一個答案:人工智能已經非常“聰明”(Clever),但還不夠聰慧(Smart),前者得益于強大的芯片計算能力和數據庫,而要實現后者,則要依靠邏輯推理能力,乃至基于“常識”的判斷,而這些依舊是人類獨有,機器無法逾越的能力門檻。
具體到人工智能對于語言的處理上,羅素提出了一個有趣的比喻——“中文房間”:一個不懂中文,但學習能力超強的人坐在一間充斥著中文語法書的房間里,每當門外塞進一張寫著中文問題的紙條,他就通過查閱語法書,在另一張紙條寫上一個自己力所能及的中文回答送出去。
看到這里,大家可能已經明白,這個“不懂中文的人”,就是人工智能,而“中文”則象征一切人類的日常語言和常識,語法書則是人工智能科研人員利用計算機語言所搭建的學習框架和邏輯。
一個幫助人工智能理解人類語言結構的樹形結構案例,動詞詞組、名詞詞組和介詞詞組被拆分,單詞則按照邏輯聯系強弱進行再分組。如果要想讓人工智能用“人類思維模式”來理解語言,現有的初步解決方案是在機器學習中,加強語言結構中某些元素的權重,比如突出“主語”、“動詞謂語”和“賓語”,讓單詞之間的邏輯關系呈“樹形”分布,有些單詞之間的聯系強,有些則弱,從而使得人工智能能夠很好地學習上下文理解,以及辨識出兩個相隔很遠的單詞之間的關系。
按照這種訓練模式,位于舊金山的人工智能語音技術公司Primer研發的自然語言處理技術(NLP)模型,已經可以撰寫出非常“標題黨”的新聞專欄標題和簡單報道,甚至可以對復雜的電影劇本加以總結。
不過,研究人員還不知足,畢竟新聞報道和劇本的敘事結構是線性的,包含元素的因果關系相對明確,非常符合AI的分析認知模式。于是,他們決定挑戰一下,試圖了解這個語言模型是否能夠理解詩歌,就輸入了T·S艾略特的《J·阿爾弗瑞德·普魯弗洛克的情歌》,結果令人尷尬:人工智能無法做出總結,只能勉強摘出整首詩歌中最具現實性場景的一句作為答案:“在客廳里女士們來回地走,談著畫家米開朗基羅。”
在索邦大學數學與計算機科學研究專家菲利普·艾斯林看來,問題的核心在于人工智能無法擁有人類最寶貴的想象力,因而并不能真正理解它自己所生產的語言內容,更遑論評估其價值。一些人工智能語言專家說,人工智能所面臨的“終極圖靈測試”,很可能是人工智能是否能理解幽默并講出一個人類覺得好笑的笑話,因為理解幽默同時需要了解場景、參與者的身份、情緒、語言的各種非常規運用,以及人類的行為準則和價值判斷。
深度符號學習尚待時日
與此同時,華盛頓大學艾倫人工智能研究所研究員崔藝珍教授開發了另一種方法,將深度學習與符號學習相結合,以便讓人工智能運用人類的邏輯來理解語言。
所謂的“符號學習”,即是一種最古老的人工智能學習模式,目的在于讓人工智能的“思維決策”過程如同人類,逐步認識各類概念的特征,并學會處理它們之間的歸屬關系。這種學習方法的優點,在于不必像深度學習那樣,必須建立龐大的“數據庫”,而AI的整個決策過程,也將變得“透明可見”,有利于我們進行調整和優化。
但缺點是,人類必須像編纂字典一樣,為人工智能編寫海量的標簽庫,并在這些概念之間建立復雜的邏輯關系,并“翻譯”為計算機能理解的語言。一想到諸如 “鈍角”、“翅膀”、“摩擦”、“貓”、“下墜”這樣的基本概念,都必須逐一“教給”電腦,更遑論其他復雜的概念與變化,我們肯定會感到頭疼,不過它誘人的前景,確實令人難以拒絕。
為了達到這個終極目的,崔藝珍和她的同事們,建立了一個自己的人工智能語言學習框架COMET,同時在不斷地編寫為COMET準備的常識知識庫“Atomics”,里面已經擁有上千萬個詞條知識概念與因果關系描述。這種巨大的努力和付出已經初見成效:加里·馬庫斯曾向GPT-2提了一個問題:“如果將一根點燃的火柴放入一個堆滿了木柴和引火物的火爐,那么會發生什么?”不出所料GPT-2“呆住了”,然而崔藝珍的人工智能系統COMET,則輸出了一個接近正確的答案:“他想生火”。
火柴加木柴會發生什么?想讓人工智能了解最簡單基本的因果關系,符號學習可能是全新而有效的解決方案。不僅如此,在訓練中,COMET已經顯示出了一定的聯想與“共情”能力,當研究人員輸入“父親去上班了”,COMET會告訴你,這表示父親“想賺錢”,“他很勤勉,自我驅動”,其他人“應該為他驕傲”。當然,這距離理想狀態依舊遠遠不夠,崔藝珍表示,人工智能如果要更好地理解常識,還必須引入視覺具象化與感知感覺(比如“紅色”與“疼痛”)。
人類與AI的關系,無疑會上升到一個全新的維度,類似電影《她》中所描寫的場景一般,它不僅能夠提供明確的服務和解決方案,也能提供情感的慰藉和樂趣。