魏強 侯雪 陸平 曹茜芮
由斯坦福大學、麻省理工學院與OpenAI聯合發布的《人工智能指數2018年度報告》,相比2017年報告有以下兩方面的改進:一是基于對人工智能領域相關活動的持續跟蹤,更新了最新指標;二是站在全球化視角進行了解析。2017年的指數報告涉及較多北美區域的活動,主要是因為當時全球只有為數不多的幾個經濟體就人工智能項目建立了合作關系。然而,當前人工智能已經在全球多個國家快速發展,主要體現在:一是人工智能論文呈現多極化趨勢。如2017年Scopus數據庫中有83%的人工智能論文來自美國以外的地區,其中,28%來自歐洲地區。二是人工智能教育呈現泛化趨勢。如全球注冊人工智能(AI)和機器學習(ML)課程的人數在不斷增加,尤其是在中國清華大學,其相關注冊人數比2010年注冊人數增加了16倍之多。三是多個國家或地區的人工智能相關專利快速增長。除美國、中國和歐洲外,其他經濟體也取得了進展。2014年,韓國和日本分別是第二和第三大人工智能專利申報國,僅次于美國。
一、指標說明
(一)核心指標
2018年人工智能指數有兩個核心指標——活動量指標和技術性能指標。
活動量指標主要用于衡量學者、企業、企業家以及公眾在人工智能領域的參與度,具體數據包括學習人工智能的本科生人數、申請人工智能工作的女性人數占比以及創辦人工智能企業所需風投資金的增長率等。
技術性能指標主要用于衡量人工智能細分領域的技術性能變化情況。新版的人工智能指數新增了國家或地區型指標,如國家層面的機器人研發管理機構、人工智能會議參會者等指標??傮w而言,2017年報告所體現的主要趨勢仍在延續,即人工智能活動正在向世界各地普及,且技術性能正在全面提升。
(二)其他指標
本報告在“衍生指標”章節重點分析了發展趨勢之間的關系,探索出一項新的指標即人工智能活力指數。該指數通過綜合學術界和行業界的趨勢,從而量化人工智能領域的活力情況。本報告還引入一個新的定性指標,即政府近期計劃,該指標可用于體現政府近期對人工智能的投資計劃。
二、核心指標:活動量
(一)學術研究
1、發表論文
從論文發表數量看,以斯高帕斯數據庫中論文為例,人工智能論文數比1996年增加了8倍,計算機科學論文數比1996年增加了6倍。
從發表區域看,2017年,斯高帕斯數據庫中有28%的人工智能論文來自歐洲地區,其次是中國(25%)和美國(17%)。
從發表主題看,2017年,機器學習與概率推理類的論文數占比為56%,而2010年僅為28%。2014-2017年間,大多數類別論文的發表速度高于2010-2014年。尤其值得注意的是,2010-2014年,神經網絡論文的年復合增長率(CAGR)僅為3%,而2014-2017年的年復合增長率為37%。
從各地區相對活動指數(RAI)看,中國的人工智能論文主要集中在工程技術和農業科學領域,而美國和歐洲的人工智能論文則主要集中在人文以及醫療與衛生科學領域。2017年數據顯示,與2000年相比,上述三個地區對人工智能研究的重視程度均有所提高,且中國正轉向農業領域的人工智能研究。
從論文發表主體看,2017年中國政府機構人工智能論文發表量是企業發表量的4倍。自2007年以來,中國政府機構發表的人工智能論文的數量增加了400%,而企業論文發表量僅增加了73%。在美國,企業發表的人工智能論文占比相對較大。2017年,美國企業人工智能論文發表量占本國所有人工智能論文發表量的比例比中國高出6.6倍,比歐洲高出4.1倍。此外,美國企業人工智能論文發表量增幅最大,其2017年企業人工智能論文發表量是2009年的1.7倍。
從論文引用影響力看(見圖1),雖然歐洲每年發布的人工智能論文數量最多,但其重新設定的領域加權引用影響力仍保持相對平穩,與世界平均水平相當。相比之下,中國重新設定的領域加權引用影響力大幅提升。2016年,中國人工智能作者的被引用次數比2000年高出44%。然而,在總引用次數方面,美國仍優于其他地區。美國作者的被引用次數比全球平均水平高出83%。
2、課程注冊
以美國人工智能課程為例,美國幾所領先的計算機科學大學的人工智能和機器學習課程的注冊人數正在不斷增長。2017年,入門級人工智能課程的注冊人數比2012年增加了3.4倍,而入門級機器學習課程的注冊人數則比2012年增加了5倍。2017年,加州大學伯克利分校的入門級機器學習課程的注冊人數是2012年的6.8倍,這一增長率高于其他所有被調研的學校。以國際其他高校課程來說,2017年,中國的清華大學人工智能和機器學習課程的注冊人數比2010年增加了16倍。多倫多大學、維也納技術大學、不列顛哥倫比亞大學等人工智能和機器學習課程的注冊人數都逐年增長。總的來看,在所有研究的學校中,人工智能課程注冊人數增長率在一定程度上取決于學校,而地理位置并不會造成太大影響。
3、參與度
參與度指標主要包括參加人工智能會議和注冊各種人工智能相關的機構。數據顯示,2017年參與大型(人數超過2000人)人工智能會議的人數增長迅速,其中,神經信息處理系統會議和國際機器學習會議的與會人數增長速度最快,分別是2012年與會人數的4.8倍和6.8倍。參與小型(人數不足2000人)人工智能會議的人數也有顯著增長,特別是國際學習表征會議(ICLR),2018年的與會人數比2012年增加了20倍。注冊女性機器學習研討會和AI4ALL4等機構的人數均有所增加,女性機器學習研討會的與會人數比2014年增加了6倍,AI4ALL的畢業人數比2015年增加了9倍。這些增長表明,當今社會一直在為提高女性和非代表性群體在人工智能領域的參與度而努力。
4、機器人軟件下載
機器人操作系統是一種廣泛使用的機器人開源軟件棧,許多商業制造商和學術研究人員都使用機器人操作系統。圖2顯示了ROS.org網站上機器人操作系統(ROS)二進制包下載量隨時間的變化情況,左軸代表月平均下載量,右軸代表僅來自唯一IP地址的月平均下載量。自2014年以來,總下載量和唯一IP地址下載量分別增長了352%和567%。這就表明,當今社會對機器人技術以及機器人系統的應用越來越感興趣。目前,唯一IP地址下載量的增長速度高于總下載量,由此可以推斷,機器人操作系統用戶也有所增加,而不僅僅是使用頻率的增加。從地區上來看,美國和歐洲的ROS.org頁面瀏覽量最多,中國緊隨其后,且中國是增長率最高的地區。
(二)行業狀況
1、創業/投資
從人工智能初創企業來看,到2018年1月,美國由風險資本支持且正常經營的私營初創企業超過了10000家,比2015年1月增加了2.1倍,呈現指數級增長態勢。從風險投資資金來看,2017年,美國風投資金總額比2013年增加了2.08倍,其中人工智能領域的風投資金比2013年增加了4.5倍。
2、就業
就業方面則呈現兩大突出問題,一是技能崗位空缺,二是申請人性別差異較大。從崗位來看,機器學習技能的需求量最大,深度學習技能需求量的增長速度最快。2017年,需要深度學習技能的崗位空缺數量比2015年增加了35倍。從申請人性別差異來看,平均而言,美國人工智能崗位申請人中男性占比71%。由于機器學習崗位的申請人數最多,因此,該類崗位申請人中的性別差異是導致這一平均水平的主要原因。此外,相對于其他類別的人工智能技術,深度學習和機器人技術崗位的申請人也存在較大的性別差異。
3、專利
從各發明地區人工智能專利的數量和增長情況來看,2014年,大約30%的人工智能專利集中在美國,其次是韓國和日本,占比均為16%。在發明量最多的地區中,韓國和中國臺灣增長最快,其2014年人工智能專利數量幾乎是2004年的5倍。
4、人工智能采用
根據麥肯錫咨詢公司對2135名不同機構受訪對象展開的調查,圖3顯示了至少已在其一個功能或業務部門引入人工智能能力的受訪對象占比情況。
分地區來看,雖然有些地區某種能力的采用程度遠高于其他地區,但在人工智能能力方面,各地區的采用程度大致相等。
分領域來看,各行業紛紛引入人工智能能力以獲得最大行業價值。例如,金融服務業在風險功能中大量引入人工智能,汽車行業在制造功能中大量引入人工智能,而零售業則在營銷/銷售功能中大量引入人工智能。這就意味著,特定應用(如制造)的人工智能的發展速度可能與特別強調專業化的行業有關。
5、財報電話會議中的提及次數
各行業的企業財報電話會議中人工智能和機器學習的提及次數整體呈現增長態勢,其中,IT企業提及的次數最多。2015年,IT行業提及人工智能和機器學習的次數開始大幅增加,而對其他大多數行業而言,2016年才開始出現此類增長。IT、非必需消費品、金融和醫療行業在財報電話會議中提及人工智能的次數最多。
6、機器人機構
從各地區工業機器人機構的年度數量來看,自2012年以來,中國機器人機構年度數量已增加了500%,其他地區也有顯著增長,如韓國和歐洲,分別增加了105%和122%。目前,在數量較少的地區中,中國臺灣的年度機構數量最大,且在2012-2017年間增長最快,機器人機構總數已超10000家。
(三)開源軟件
開源軟件有兩個最新趨勢,一是大型企業支持的框架,如谷歌的Tensorflow、臉書的Pytorch、亞馬遜的mxnet等,正在日益普及;二是相對于其他編程語言,TensorFlow最為普及。
(四)公共事務
1、媒體態度
從媒體對人工智能的評判態度來看,中性評判人工智能類文章越來越少,正面評判人工智能類文章越來越多。自2016年初期以來,2016年1月至7月,正面文章占比從12%增至30%,此后,正面文章占比一直在30%左右。
2、政府提及率
自2016年以來,美國、加拿大和英國三國政府對人工智能和機器學習相關詞匯的提及率不斷攀升。在此之前,這三個國家鮮少提及機器學習。以美國為例,美國國會對人工智能和機器學習的提及率在2018年有了顯著增長,美國數據中的每項計數代表至少提及過一次機器學習或人工智能的特定事件或對話。
三、核心指標:技術性能
(一)視覺
1、對象檢測
ImageNet挑戰賽是全球計算機對象檢測領域的重要競賽,能夠反映該領域的進展。
從準確度方面看,根據2012-2018年ImageNet2012數據集的測試和驗證結果,對象檢測領域的性能不斷提升,測試集和驗證集準確度都已達到95%以上。
從訓練時間看,2017年6月至2018年11月間,訓練對象檢測人工神經網絡所需的時間已從1小時縮短至4分鐘左右,訓練速度提高了約16倍。其中,算法創新、基礎設施投資是訓練時間縮短的主要原因。
2、實例對象分割
由于對象檢測與圖像分類領域已經實現了較高性能,ImageNet挑戰賽已宣告結束。自2017年來,研究者開始將研究重點轉向需要更復雜推理的視覺任務,如定位像素級精度的對象(實例對象分割)、將場景劃分為具有像素級精度的區域(語義分割)等。COCO挑戰賽是全球實例對象分割的重要競賽,其宗旨是構建一種可精確定位各對象并描繪其邊界的算法。自2015年以來,COCO挑戰賽中達到的最高平均精度提高了0.2個百分點。
(二)語言
1、句法分析
句法分析往往是進行某些自然語言處理任務的第一個步驟。目前幾乎普遍使用深度學習技術進行句法分析。2003至2018年間,句法分析的性能提高了約10%。
2、機器翻譯
目前,機器翻譯的性能有大幅提升。2018年,BLEU模型在英語譯德語方面的得分比2008年提高3.5倍,而在德語譯英語方面的得分比2008年提高2.5倍。
3、回答問題
AI2推理挑戰賽(ARC)。AI2推理挑戰數據集包含7787個小學水平(美國3-9年級)的多項選擇題,這些問題可分為挑戰題集(2590個問題)和簡易題集(5197個問題)。2018年4月至11月期間,AI2推理挑戰賽中的簡易題集性能得分由63%提升至69%,挑戰題集得分由27%提升至42%。
用語言理解評估(GLUE)。通用語言理解評估基準是一項新基準,旨在通過一系列任務測試自然語言理解(NLU)系統,并促進非特定任務系統的開發。該基準由九項子任務組成:兩項單句任務(衡量語言可接受性和情緒),三項相似性與釋義任務,以及四項自然語言推理任務。語料庫大小從1000到400000不等。評估標準主要有準確度/F1和Matthews相關性系數。盡管評估基準于2018年5月發布,但到2018年10月,性能已經由最初公布基線(約70%)提高至約80%。
四、其他指標:衍生指標
第一項衍生指標是學術界-行業界動態,該指標可體現所選學術指標以及行業界動態的增長情況。第二項衍生指標是人工智能活力指數,該指標是學術指標和行業指標的綜合體現。
1、學術界-行業界動態
為探索學術界與行業界人工智能相關活動之間的關系,本報告首先從上述章節中選取了一些有代表性的衡量指標,其中包括斯高帕斯數據庫中人工智能論文的發表量、美國幾所大學入門級人工智能和機器學習課程的綜合注冊人數以及對人工智能初創企業的風險投資。這些指標體現的表征量無法直接進行對比。為分析各趨勢之間的關系,本報告規范了從2010年開始使用的衡量指標,并顯示了各指標的增長情況,而非絕對數量。
2、人工智能活力指數
人工智能活力指數是學術界-行業界三個衡量指標(論文發表量、課程注冊人數和風險投資)的綜合體現,本報告利用該指數衡量人工智能領域的活力。人工智能活力指數主要受風險投資的影響,因為相對于其他兩項指標,風險投資增幅最大。
五、不足之處
為進一步改進人工智能指數報告,三位人工智能領域專家建議加入新的要素和信息。
(一)常識推理與自然語言理解
IBM和意大利帕多瓦大學的弗朗西斯卡·羅西(Francesca Rossi)指出,深刻的自然語言理解以及常識推理能力仍然是挑戰所在,這兩項能力的衡量指標有助于推動人工智能系統對話能力以及其他方面的發展。因此,人工智能指數報告中可以添加一些指標來跟蹤與這些能力相關的測試和挑戰賽的進展,如威諾格拉德模式挑戰賽、AI2的Aristo項目等。此外,如通過人工智能增強人類智能,而非取代人類智能,那么非常重要的一點應是從人機對抗環境向人機合作環境轉變。因此,報告中可增加非自主系統數量這一指標,以顯示人機合作方面的進展。
(二)帶有人工智能組件的機器人
麻省理工學院的羅德尼·布魯克斯(Rodney Brooks)希望進一步改善機器人出貨量指標。機器人出貨量指標的有效性取決于信息源,然而許多信息源提供的工業機器人出貨量中僅含有極少的(甚至根本沒有)人工智能組件,這就使得機器人出貨量指標難以衡量人工智能的真實進展。此外,也可著眼于帶有人工智能組件的機器人,如無人機、家庭機器人等。
(三)政府支出與軍事應用
悉尼威爾士大學和柏林工業大學的托比·沃爾什(Toby Walsh)指出,近兩年,人工智能領域的最大進展之一可能是政府和行業投資的增加。他建議:一方面增加衡量投資增長的量化指標,通過相關指標對各國投資進行有效分析,可以衡量人工智能研發重點的轉移情況。另一方面,人工智能的軍事應用備受關注,可增加可衡量各國軍方對人工智能技術的開發和采用情況的指標。