2018年1月13日,微軟和阿里巴巴同時宣布已開發出“在閱讀上勝過人類”的人工智能軟件。隨后,媒體的發酵更是讓這項技術突破承載了“奪走數百萬份人類工作”的可能。不過用理性的眼光看,該技術還遠不能在閱讀方面與人類真正達到同等水平。
兩家科技巨頭的信心來源于自家AI軟件在一項閱讀理解測試上得分超過普通人類的表現。但是,開發該測試的斯坦福大學科研人員表示,這兩家公司用于與機器數值對比的人類平均水平值,并不能反映英語母語人群的實際閱讀能力,所以“機器比人類更會閱讀”一說有失偏頗。一位直接參與此項目的微軟研究人員也表示:只有人才能充分理解語言中的細節和含義,而機器確實還差得遠。
過往科技公司在AI上的技術突破,尤其是豪言“超越人類”的突破,大多都值得商榷。2015年,谷歌和微軟同時宣布自家的算法在圖像辨別方面已勝過人類。事實上,當時作為評判依據的那項測試,要求被測試者將圖像分為1000類,其中120類是不同狗的品種。自然,這對于普通人類的難度,要遠遠高于能預先通過大量樣本學習的機器。
另一方面,人類在真正理解圖像上的能力仍遠勝于機器,因為后者不具有常識性的認知能力:谷歌目前仍在特意審查“大猩猩”詞條的搜索結果,以防自家的圖像搜索引擎將其與黑人圖像相混淆。
類似地,2016年微軟宣布已開發出“歷史性的”、能真正達到人類水準的語音識別軟件。而幾個月后,IBM重新評估了人類在微軟所用評測中的平均水平,并發現人類的表現遠比微軟先前所取的數值高。到目前為止,機器還遠不能像人類一樣“聽懂”在嘈雜環境中的閑聊內容、口語化或含糊的言談、抑或是不同口音的對話。
無獨有偶,微軟和阿里巴巴近日提出的關于軟件在閱讀理解方面超越人類的宣言也是建立在很多附加條件之上。這次用于橫向比較機器和人類的測試叫SQuAD,由斯坦福大學開發,形式類似于大家以前上學做的閱讀理解題。機器學習軟件就從維基百科上摘錄的文段答一萬個問題,例如“水滴與冰晶碰撞形成降水的地方在哪里?”,作答形式是將答案(“云層中”)從原文中找出來并高亮。參與測試前,軟件制作者可以通過分析九萬個附有答案的樣本題來搭建軟件。
在一月早些時候,微軟和阿里巴巴向斯坦福大學提交了模型并分別做到在測試中準確高亮出82.65%和82.44%的答案,而斯坦福大學所取用的代表人類水平的數值是82.304%。阿里巴巴的官方報道中稱自家軟件“在最具難度的閱讀理解測試中超越人類”,微軟也自詡“已做出可以像真人一樣閱讀文件并答題的軟件。”
SQuAD的創造者之一、斯坦福大學教授PercyLiang表示自己在2016年設計該測試時的初衷并非為了精準比較機器和人類的能力,而且從設計原理上看,這項測試對機器更有利,因為機器和人類的評分標準是不一樣的:微軟和阿里巴巴使用的人類成績來自Mechanical Terk,每道題目會選出三個答案,一個是所謂的“測試者答案”,兩個是用來對比的答案,只用兩個對比答案降低了“測試者答案”答對的幾率,讓人類和機器相比落了下風。
學界對科技行業這種結論也提出了質疑。以色列巴伊蘭大學的一位高級講師瑤夫·戈德伯格就表示,該測試用Amazon Mechanical Turk上的普通勞動力資源答題,本質上就不能代表人類的真實水平。首先,眾包平臺上的勞動力水平參差不齊,其次這些一小時掙9美金的人在接這種科研性質的“活”時也不太可能認真閱讀那些wiki文段或者在乎答案的對錯。82.304%這個數字更多代表的是一群AMT worker答題的統一性,而非人類閱讀理解的實際平均水平。
就此次“宣言”接受美國《連線》雜志詢問時,微軟科研經理高建峰(音譯)也通過一封公開信表示:“目前我們所做的研發和測試仍有很多限制和紕漏。總的來看,人類確實在理解語言這種復雜且微妙的事物時,遠遠強于機器。”
不過,微軟和阿里巴巴借此展現出的在AI領域取得的突破是有目共睹的。參與SQuAD的斯坦福大學科研團隊成員普拉納夫·拉普卡就對兩家公司的科研團隊大加贊賞。同時,他表示SQuAD團隊要繼續優化測試的機制,從而讓SQuAD繼續做衡量機器學習軟件在閱讀理解領域成功與否的標尺。前文提到的SQuAD創始人之一梁教授也評論說:“[SQuAD]現有的評估機器能力的方法太過側重于表面上的內容連線,而非考察真正的對文字含義的理解。”
美國西雅圖艾倫人工智能研究所的CEO,奧倫·埃奇奧尼對AI領域頻頻出現的突破既感到激動,又保持審慎:“看到機器學習已能在一些單一任務上趕超人類,我感到很高興。開發專門應對某項任務的軟件,比如廣告定向、家用音響,將會是很實用且賺錢的行業。”不過同時,AI還有很長的路要走——“人類在進化中培養出的這種自然性的語言交流和理解,仍給AI留了很深遠的探索空間。”埃奇奧尼補充道。(摘自美《深科技》)(編輯/小文)