孫春暉,柳學智
(1.中國信息通信研究院,北京 100191;2.中國人事科學研究院,北京 100101)
人工智能是引領新一輪科技革命和產業變革的重要戰略性技術,正在對經濟社會發展產生重大深遠的影響。人工智能基礎研究是技術創新的源頭,而人才是基礎研究的主要驅動因素。近年來,學者和政策研究者高度關注人工智能人才,發表了大量的文章,發布了很多的報告,以描述和分析中國及全球人工智能人才發展情況。
領英發布的《全球AI領域人才報告》顯示,截至2017年一季度,基于領英平臺的全球人工智能領域技術人才數量超過190萬人,其中,美國超過85萬人,中國為5萬多人。清華大學科技政策研究中心發布的《2018年中國人工智能發展報告》,從3個角度描述了中國人工智能人才情況:一是國際人工智能人才。全球共有國際人工智能人才204 575人,各國按人數排名依次為美國28 536人,占13.9%,排名第一;中國18 232人,占8.9%,排名第二;印度17 384人,占8.5%;德國9 441人,占4.6%;英國7 998人,占3.9%。二是高端國際人工智能人才。各國按人數排名依次為美國5 158人,英國1 177人,德國1 119人,法國1 056人,意大利987人,中國977人(排名第六)。三是中國人工智能人才。相對于國際人才,中國人工智能人才特指在過去10年間,用中文或英文發表過專利或論文的中國研究者,共有201 281人。2019年,數據創新中心發布的《人工智能發展研究報告》顯示,美國在人工智能人才方面排名第一,歐盟第二,中國第三,其中在2018年高端研究人員(學術會議)數量上,中國、歐盟、美國分別為2 525人、4 840人、10 295人。
因此,有學者認為,中國高端人工智能人才數量不足,與美國相比,大概只占其20%。然而,與人才發展相比,作為基礎研究的產出,中國人工智能期刊論文和會議論文的數量增長顯著。
《人工智能指數2019年度報告》顯示,1998—2018年,全球經過同行評議的人工智能論文數量增長超過300%,分別占同期期刊論文的3%和會議論文的9%。中國每年發表的人工智能論文數量已于2006年超過美國,期刊論文總數的世界占比從2000年的10%快速上升到2018年的28%。艾倫人工智能研究所對2018年年底之前發表的200多萬篇人工智能論文進行分析發現,1982—2018年,美國論文數量的世界占比不斷下降,中國論文數量的世界占比直線上升,且中國論文的質量越來越高。中國將在2018年、2019年、2025年,分別在被引最多的前50%、10%、1%的論文上超越美國。
與人工智能基礎研究產出相比,關于其基礎研究人才的探討更具爭議性,主要表現在兩個方面:一是關于基礎研究人才的界定。有研究將用英文發表論文的人才界定為“國際人工智能人才”,將用中文或英文發表論文的中國研究者界定為“中國人工智能人才”;將h指數位于前10%的國際人工智能人才界定為“高端國際人工智能人才”;將近兩年被引次數位于前18%的國際學術會議論文作者界定為“高端人工智能人才(學術會議)”。顯然,這些概念的界定并沒有采用統一的標準,相互之間也存在某種包含關系。二是關于數據的來源。有些研究數據來源于科睿唯安,有些來源于愛思唯爾,不同的數據來源具有不同的代表性,由此得出的結論也不盡相同。另外,即使基于相同的數據來源,如果同一數據庫的地區代表性存在差異,也會得出不同的結論。例如,領英在美國和中國的普及率分別為44%和3%,那么,僅僅依據領英數據得出的有關美國和中國的結論,顯然是不全面的。
鑒于上述研究的局限性,本文從文獻計量視角,提出一種界定“人工智能基礎研究人才”的思路和方法,并構建出基礎研究人才指數,進而描述和分析中國人工智能基礎研究人才的發展趨勢,以彌補既有研究的不足。
本文的數據來源于科睿唯安InCites數據庫。科睿唯安遵循客觀性、選擇性和動態性的文獻篩選原則,將文獻被引次數作為主要影響力指標,篩選每一研究領域中最有影響力的會議、期刊等文獻,確保文獻的代表性。
筆者從InCites數據庫中抽取了計算機科學中的人工智能(Artificial Intelligence)、機器人學(Robotics)、自動化和控制系統(Automation&Control Systems)、控制論(Cybernetics)等4個學科數據,數據更新時間為2021年4月30日。
這4個學科涉及人工智能,即創制具有人類智力特征(例如,有效的知識表征、推理、演繹、問題解決、啟發、對相互沖突的或模棱兩可的信息的分析)的機器的研究和技術。其中,人工智能相關技術包括專家系統、模糊系統、自然語言處理、言語認知和模式認知、計算機視覺、決策支持系統、知識庫和神經網絡等;機器人學涉及機器人的設計、制造和操作;自動化和控制系統是指設計與開發替代人類干預的系統及其過程,包括自適應控制、穩健控制、離散事件控制、動態控制、模糊控制和最佳控制等;控制論涉及人工(機器)系統與生命系統或自然系統內部或之間的通信和控制。
本文抽取上述4個學科文獻共計2 332 682篇,文獻的主要類型有會議論文、期刊論文、編輯材料、綜述和圖書章節,占比依次為63.38%、34.25%、1.04%、0.40%和0.21%。文獻涵蓋的時間為1980—2020年,雖然包含了2020年,但2020年的文獻發表時間較短,被引次數還很小甚至為0。由于被引次數不能代表或者充分代表基礎研究文獻的質量,所以本文剔除了2020年的數據,選擇1980—2019年的相關文獻作為計量對象。
此外,一篇文獻可能有一名或多名作者,而多名作者可能屬于一個或多個國家,一篇文獻也可能屬于一個或多個學科。在本文中,如果一篇文獻有多名作者,視為一名作者;如果一篇文獻的多名作者屬于多個國家或地區,視為作者所屬的每一個國家或地區都擁有該篇文獻;如果一篇文獻屬于多個學科,則視為文獻所屬的每一學科都擁有該篇文獻。例如,某篇文獻有7名中國作者,3名美國作者,那么中國和美國各自計1篇文獻;如果某篇文獻既屬于控制論,又屬于機器人學,那么控制論和機器人學各自計1篇文獻。
本文將基礎研究人才界定為,在某一學科某一年度的研究成果中,被引次數累計百分比處于前10%的文獻的作者。為了對基礎研究人才進行更細致的區分,繼續以1‰、1%、10%為標線,將其劃分為A、B、C 3個層次(表1)。

表1 人工智能基礎研究人才的層次劃分
基于人才層次的劃分,本文構建了3個人工智能基礎研究人才指數:
A層人才指數:某一國家或地區在某一年度某一學科中的A層人才的人次數。
B層人才指數:某一國家或地區在某一年度某一學科中的B層人才的人次數。
C層人才指數:某一國家或地區在某一年度某一學科中的C層人才的人次數。
依據上述標準,本文依次計算了1980—2019年全球A、B、C層人工智能基礎研究人才指數,如圖1—3所示。

圖1 1980—2019年全球A層人工智能基礎研究人才指數

圖2 1980—2019年全球B層人工智能基礎研究人才指數

圖3 1980—2019年全球C層人工智能基礎研究人才指數
從圖中可以看出,全球人工智能基礎研究人才發展總體上呈現快速增長趨勢。具體而言,人工智能基礎研究人才在2000年之前,處于發展的初期,盡管增速很快,但總量較小;在2000年之后,處于高速增長期,人數急劇增長;最近幾年處于震蕩增長期,總人數很多,但年度之間波動較大。
在全球人工智能基礎研究人才中,各個國家的人才分布如何?本文選擇了1980—2019年A、B、C層人工智能基礎研究人才指數最高的5個國家,對比中國(在本研究中指中國大陸)與其余4國人才發展的絕對趨勢,如圖4—6所示。

圖4 1980—2019年中美英澳德A層人工智能基礎研究人才指數

圖5 1980—2019年中美英澳德B層人工智能基礎研究人才指數

圖6 1980—2019年中美英德澳C層人工智能基礎研究人才指數
從圖中可以看出,中國A、B、C層人工智能基礎研究人才指數增長迅速,盡管在2006年以后,美國、英國、澳大利亞、德國的人才指數增長緩慢,甚至在一些年份明顯下降,但是中國的人才指數持續增長態勢沒有改變。
本文計算了1980—2019年A、B、C層人工智能基礎研究人才指數最高的5個國家人才指數的世界占比,對比中國與其余4國人才發展的相對趨勢,如圖7—9所示。

圖7 1980—2019年中美英澳德A層人工智能基礎研究人才的世界占比

圖8 1980—2019年中美英澳德B層人工智能基礎研究人才的世界占比

圖9 1980—2019年中美英德澳C層人工智能基礎研究人才的世界占比
從圖中可以看出,中國A、B、C層人工智能基礎研究人才的世界占比快速上升,而美國的世界占比持續下降,這反映出中國正在改變人才發展的劣勢,并逐漸獲得了相對優勢。
對比艾倫人工智能研究所的報告,可以看出,雖然中美人工智能論文和人才的世界占比具體數值存在差異,但是表現出來的發展趨勢是一樣的。
在人工智能基礎研究人才中,A、B、C各層人才分布如何?本文選擇了中國、美國、英國3個國家,計算其1980—2019年人工智能基礎研究人才中A、B、C層人才的世界占比,對比中國與美英的人才層次結構,如圖10—12所示。

圖10 1980—2019年中國A、B、C層人工智能基礎研究人才的世界占比

圖11 1980—2019年美國A、B、C層人工智能基礎研究人才的世界占比

圖12 1980—2019年英國A、B、C層人工智能基礎研究人才的世界占比
從圖中可以看出,中國A層人才的世界占比小于C層人才,C層人才小于B層人才;美國和英國A層人才的世界占比大于B層人才,B層人才大于C層人才。這反映出中國雖然總體上在人工智能基礎研究人才方面有長足發展,但在更高層次的A層人才上,發展趨勢與總體并沒有完全同步,尚有一定的差距;而美國和英國在更高層次人才上具備優勢。
在人工智能基礎研究人才中,A、B、C層人才之間的相關性如何?本文計算了1980—2019年中國、美國、英國A、B、C層人工智能基礎研究人才指數之間的相關系數,對比中國與美英的人才層次之間的相關程度,如表2—4所示。

表2 1980—2019年中國A、B、C層人工智能基礎研究人才指數之間的相關系數

表3 1980—2019年美國A、B、C層人工智能基礎研究人才指數之間的相關系數

表4 1980—2019年英國A、B、C層人工智能基礎研究人才指數之間的相關系數
從表中可以看出,中國、美國、英國A、B、C層人工智能基礎研究人才指數之間的相關系數均大于顯著相關的臨界值,這說明A、B、C層人才之間是相互聯系的,不能孤立地看待各層人才的發展,尤其是不能不顧較低層次人才的發展而只強調較高層次人才的發展。在制定促進人才發展的相關政策時,要關注各層人才發展的協調性。
人工智能基礎研究人才與經濟社會發展密切相關,本文選擇國內生產總值、研究與發展經費、基礎研究經費、研究人員全時當量、基礎研究人員全時當量等作為經濟社會發展指標,運用回歸分析方法,對其關系進行實證研究。
本文從《中國統計年鑒2021》中抽取了1980—2019年中國國內生產總值,從《中國科技統計年鑒2020》中抽取了1995—2019年中國研究與發展經費和基礎研究經費以及1992—2019年中國研究人員全時當量和基礎研究人員全時當量。
為了揭示中國人工智能基礎研究人才與經濟社會發展之間的關系,分別對基礎研究人才指數與中國國內生產總值、研究與發展經費、基礎研究經費、研究人員全時當量、基礎研究人員全時當量等進行回歸分析。所有回歸結果的方差分析顯示,回歸方程通過顯著性檢驗,檢驗統計量的值遠小于顯著性水平0.01;自變量的回歸系數通過T檢驗,值小于0.01。這說明自變量國內生產總值、研究與發展經費、基礎研究經費、研究人員全時當量、基礎研究人員全時當量等對因變量基礎研究人才指數均有顯著影響,回歸關系成立。回歸方程和擬合優度2如表5所示。

表5 中國人工智能基礎研究人才與經濟社會發展的回歸分析
從表中可以看出,基礎研究人才指數與國內生產總值、研究與發展經費、基礎研究經費、研究人員全時當量、基礎研究人員全時當量等回歸方程的 擬合優度2分別為 0.949、0.959、0.969、0.900、0.942,也就是說,因變量 94.9%、95.9%、96.9%、90.0%、94.2%的變化可以用回歸方程來解釋。因此,經濟發展、研究經費投入、研究人員增長等是人工智能基礎研究人才發展的重要影響因素。
從經濟發展看,一方面,經過改革開放40多年的持續快速發展,中國國內生產總值從1980年的4 588億元增加到2019年的986 515億元,中國經濟的快速發展有力地推動了中國人工智能基礎研究人才的發展;另一方面,無論是經濟總量還是人均國內生產總值,中國與發達國家之間仍然存在較大的差距,中國經濟還有較大的發展空間。因此,中國人工智能基礎研究人才還將繼續快速發展。與此同時,也看到,改革開放以來中國經濟的高速發展主要是依靠自然資源、勞動力等要素實現的。隨著人均自然資源占有量的降低和勞動力的減少,這種經濟增長方式難以為繼,中國面臨經濟結構轉型升級的巨大壓力。如果中國未能及時轉變經濟發展方式、調整產業結構,或創新驅動發展戰略未能落到實處,就容易陷入“中等收入陷阱”,經濟發展趨勢便會出現嚴重下滑甚至逆轉,中國人工智能基礎研究人才的發展趨勢也將隨之改變。
從總體科技經費看,中國的科技經費投入總量仍低于美國,科技經費占國內生產總值的比例也低于發達國家,人均科技經費更是難以望其項背。在中國經濟的持續發展下,科技經費投入仍有較大的增長空間,其必將推動中國人工智能基礎研究人才繼續發展。
從基礎研究經費投入看,改革開放以來中國經濟的快速發展同時保障了基礎研究經費的快速增長,基礎研究經費從1995年的18億元增長到2019年的1 336億元。基礎研究經費的快速增長是中國人工智能基礎研究人才發展的直接動力。
從研發人員總體看,盡管中國的研發人員總量較多,但是每百萬居民研發人員、每千人勞動力研發人員、每千人就業者研發人員的數量均遠低于發達國家。
從基礎研究人員全時當量看,中國經濟的持續發展和研究經費的快速增長推動了研究人員數量增長,基礎研究人員全時當量從1992年的6萬人年增長到2019年的39萬人年。而基礎研究人員的數量增長自然意味著人工智能基礎研究人才隊伍的壯大。
從人工智能人才培養看,J F Gagne等以2018年的21個人工智能學術會議參會人員為研究對象,調查在會議上發表論文的作者獲得博士學位情況,其中44%的人在美國獲得博士學位,11%在中國獲得,6%在英國獲得,5%在德國獲得,4%在法國、加拿大和日本獲得。可見,在人工智能人才培養上,中國與發達國家仍存在較大差距。
總之,經濟發展、研究經費投入、研究人員數量增長等都與人工智能基礎研究人才發展密切相關,其中尤以基礎研究經費投入為甚。
本文依據科睿唯安InCites數據庫中的人工智能學科數據,以地域和時間為維度,構建基礎研究人才指數,勾勒出中國人工智能基礎研究人才分布的全景圖,描繪了中國人工智能基礎研究人才的發展趨勢,同時比較了中國與美英等發達國家人工智能基礎研究人才發展的特點,為全面客觀地了解中國人工智能基礎研究人才發展趨勢提供了翔實準確的資料,為精準制定人才發展相關政策提供了實證參考。
本文從文獻計量的定量評價視角出發,通過分析人工智能文獻被引次數的變化,區分基礎研究人才的層次差異。為此,基于文獻被引次數分布的特點,研究并未包含所有文獻的作者,而是截取了被引次數累計百分比處于前10%的優秀人才,并且依據1‰、1%、10%標線對優秀人才進行了更細致的分層,即A、B、C 3個層次。通過分析這3個人才層次之間的關系,發現人才層次之間具有高度相關性,由此更為立體地考察了人工智能基礎研究人才的層次分布。
本文選擇國內生產總值、研究與發展經費、基礎研究經費、研究人員全時當量、基礎研究人員全時當量等作為經濟社會發展指標,運用回歸分析方法,分析人工智能基礎研究人才與經濟社會發展之間的關系,發現上述變量均與人工智能基礎研究人才指數密切相關,其中基礎研究經費的相關程度最高。
當然,本文也存在一些局限性。首先,本文依據的是文獻被引次數,其反映的是學者的學術影響力和學術話語權。需要注意的是,被引次數僅是一種間接評價指標,并非是對學術水平的直接評價。因此,本文站在國家和學科的宏觀層面,對人工智能基礎研究人才進行評估。這種評估不同于對個體、團隊、組織等微觀層面的評估。在進行微觀評估時,文獻計量要針對實踐中的人才個體,還應運用同行評議等直接評價指標,才能全面、綜合地進行評價。
其次,本文所用文獻數據來自科睿唯安In-Cites數據庫,盡管采用嚴格的程序和方法來確保文獻選取的代表性,但該數據庫畢竟未能包含全部文獻,且目前學界就人工智能的內涵和外延并沒有達成共識,實踐中某一文獻是否屬于人工智能領域可能存疑。因此,科睿唯安數據庫的代表性是相對的,本文基于其數據進行統計分析并得出結論,代表性也不完全充分。
最后,時間對文獻被引次數有顯著影響,總體上隨著時間增加而逐漸減小,越遠期影響越小,越近期影響越大;較新文獻產生影響需要一定的時間。因此,本文在分析時剔除了2020年的數據,盡管如此,2018年和2019年的文獻發表時間相對較短,并沒有被學界充分了解和引用。這樣,本文基于文獻已有的被引數據進行分析,同樣具有某種程度的不確定性,特別是對近期文獻而言。
改革開放以來,中國經濟持續快速發展,推動了基礎研究,包括人工智能基礎研究的快速發展。而經濟發展是人工智能基礎研究人才發展的根本前提。與發達國家相比,中國人均國內生產總值仍較低,還有較大的增長空間,這意味著中國的基礎研究和人工智能基礎研究人才還有較大的發展空間。當前,中國正處在發展方式轉變和經濟結構調整的關鍵時期,創新能力不足成為制約經濟社會發展的主要瓶頸。人工智能既是中國實施創新驅動發展戰略的重要領域,也是推動經濟社會各領域創新的重要手段。因此,中國要從戰略高度把握好經濟社會發展與人工智能發展的關系,繼續保持中國經濟持續穩定發展的勢頭,培養和集聚大批人工智能基礎研究人才,推動人工智能快速發展,同時通過大力發展人工智能,推動各領域的創新,為經濟社會發展注入強大動力。
基礎研究經費的持續投入直接推動著人工智能基礎研究的快速發展。在過去十幾年間,中國的基礎研究經費投入雖然有了長足的增長,但在人均科技經費上與美國等發達國家相比仍然存在較大差距,需要繼續加大基礎研究經費投入,進一步擴大基礎研究經費的總體規模,提高人均科技經費水平。同時,應完善基礎研究經費管理的激勵約束機制,不斷提高經費的使用效率,激發研究人員的積極性。
經濟發展和研究經費增長也推動著研究人員的數量增長。盡管中國研發人員總量已經位居世界前列,但每千人就業者中研發人員的數量遠遠低于發達國家,中國研發人員數量仍有較大的增長空間。在未來,須提高人工智能基礎研究人才的比例,通過培養、培訓、引進、交流等多種方式,集聚大批優秀人才,形成一支規模龐大、業務精良的人工智能基礎研究人才隊伍。