賴紅波 趙逸維



摘 要:以Web of Science數據庫中大數據背景下的人工智能相關文獻作為數據樣本,借助CiteSpace軟件,對這一領域的研究分布、研究熱點、前沿研究等進行分析。研究發現,美國在該領域具有絕對的領導力,中國缺少具有關鍵性的文獻,并且形成了分別以中美為核心的兩個合作子網絡;該領域還沒有出現具有關鍵性意義的研究;深度學習是這一領域的研究前沿。目前這一領域還只是大數據和人工智能兩門學科的交叉,還沒有出現能夠使其成為新的邊緣學科的趨勢。分析結果有助于了解該領域的發展和現狀,為后續的深入研究提供參考。
關鍵詞:大數據;人工智能;共被引網絡
中圖分類號:TP18? ? ? ? 文獻標志碼:A? ? ? 文章編號:1673-291X(2020)15-0135-05
引言
人工智能和大數據是目前業界和學界都最十分熱門的研究領域。韋氏詞典將人工智能定義為:“機器模仿有智慧的人類行為的能力。”麥肯錫對大數據的定義是,一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合[1];而我們平常更多的指的是對大數據進行的處理和分析[2]。
大數據在很大程度上對眾多領域造成了巨大影響,包括傳統的企業[3],如制造業[4]等,也包括新興的如人工智能[5]。大數據是人工智能的三大基礎之一,其作為訓練人工智能的“原材料”,能在很大程度上影響人工智能的學習效率和效果;反過來,人工智能的發展能大大地提高對數據的分析和處理能力。因此,兩者之間有十分密切的聯系,是互相交融、相輔相成的關系。
然而,對于大數據背景下的人工智能這一交叉領域的研究還很少,起步時間也較晚,從2012年后才開始逐漸形成規模。在各自的學科領域內,大數據和人工智能都已經有了較多的綜述研究以及知識圖譜研究來概括描述學科研究的面貌;而兩學科的交叉領域還幾乎沒有文獻來描述。盡管發展晚、文獻數量少,但這兩個熱點學科的交叉領域仍具有進一步深入研究的價值。因此,本文將對大數據背景下人工智能研究的相關文獻進行科學計量與可視化研究,借助科學知識圖譜工具CiteSpace,通過“合作網絡”“關鍵詞共現網絡”“文獻共被引聚類”等功能,梳理該領域中的分布情況,分析該領域的研究熱點和前沿研究,以期從學術研究的角度提供更具價值參考信息,助力大數據背景下的人工智能更深層次的建設發展。
一、數據與方法
科學知識圖譜是一種描繪科學知識發展進程與結構關系的圖形,研究的對象是科學知識,在其背后則是復雜的數學模型[6]。在目前眾多知識圖譜工具中,陳超美教授開發的CiteSpace知識可視化軟件由于其鮮明的特征和優秀的表現而得到了廣泛應用,成為目前最為流行的知識圖譜繪制工具之一[7]。因此本文以CiteSpace.5.4.R4作為研究工具。考慮到CiteSpace并不支持對CNKI數據庫導出的文獻數據做共被引分析[8],CSSCI則只包含了社會科學學科的文獻,因此我們使用Web of Science數據庫。搜索主題為“big data”以及(邏輯為AND)“artificial intelligence”的文獻,時間為數據庫內所有年份(1986—2019年),并將文獻類型限定為會議論文、論文和綜述;然后在結果列表界面點擊“創建引文報告”,進行檢索結果的擴展,得到這些論文的施引文獻,得到兩次檢索除去自引的共計4 520篇文獻。檢索時間為2019年10月1日。這種寬松的檢索取向有助于更加全面地研究諸如兩學科交叉領域這樣的文獻數據較少的研究對象[9]。
按照以上檢索策略,去除掉數據字段缺失的文獻,共下載得文獻記錄2 700條,時間跨度為1999—2019年。將得到的2 700條文獻記錄導入CiteSpace中功能去重,最終得到2 664條文獻記錄,將其作為本次研究分析的數據樣本。
二、研究結果與分析
(一)研究的分布
利用CiteSpace的合作網絡分析模塊,對樣本文獻數據在國家和機構間的分布做出可視化分析。在Node Types中分別選擇Country和Institution,并將時間段按年分段,每一年提取排名前50位的數據來生成最終的網絡。
國家分布的結果(如表1所示),選取了兩個指標下排名靠前的國家。其中中介中心性用來發現和衡量這一節點的重要性;具有高中心性的節點(一般大于0.1)通常是連接的關鍵樞紐[10]。從頻次來看,中美兩國的文獻發表數量遙遙領先,體現了這兩個國家對這一交叉細分領域的關注度和領導力。前十中也基本都是發達國家,但除中國外的另一發展中國家印度也值得關注。印度具有較強的IT實力,因此在大數據和人工智能的交叉領域也會有不錯的發展。從中心性來看,與頻次排名國家相比有較大的變化。美國的中心性高達0.27,約為第二名的近兩倍,說明了其發文多為關鍵的樞紐,具有突破性,是這一領域的領跑者,而中國雖然頻次高但中心性較低,只有0.1,重大突破的文獻相比較少。沙特阿拉伯和奧地利的文獻雖然數量不多,但也具有較高中心性,是這一領域不能忽略的重要國家。
機構的合作(網絡如圖1所示),節點大小代表發表文獻的數量,具有高中心性的節點被紫色的圓圈出,連線代表合作關系。可以很明顯地看到網絡中的節點形成了分別以中國機構和美國機構為主兩個合作子網絡。中國這邊以中國科學院為核心,有幾個較為重要的高校如北大清華武大等,文章數量明顯更多。美國一方的分布較為平均但連線十分密集,表明了其間更為密切的合作關系。重要的院校有哥倫比亞大學、威斯康辛大學以及加拿大的麥吉爾大學、滑鐵盧大學等。在兩個子網絡之間還有幾所重要的大學,其與兩邊都有較多的合作,比如美國麻省理工、哈佛醫學院,英國牛津大學等倫敦大學學院等。兩個主要的合作子網絡各有特點:中國一邊以幾所機構為核心帶動其他的科研機構發展;歐美一方則是眾多的機構共同發展,較為平均但數量眾多。這些特點是由機構所在國家和地區的科研情況和科研政策決定的,兩種模式下都有著很好的發展。但無論是何種方式,都表明了合作是推動科研進步發展的最重要因素之一;或許在將來,這兩種模式之間可以互相有借鑒和學習。
(二)研究熱點和前沿
文獻關鍵詞是一篇文章中高度凝練及集中概括的表現,通常出現頻次較高的關鍵詞被認為是一定時期的研究熱點[11]。因此,本文使用文獻關鍵詞做主題詞共現分析,這其中包括作者自己列出的關鍵詞以及WoS數據庫提取的擴展關鍵詞;Node Type選擇Keyword,整理后的部分結果(如表2所示)。
大數據和人工智能理所當然地位于頻次的前兩位,因為本文的研究對象即為這兩個學科的交叉領域。其他排名靠前的關鍵詞也來自于人工智能以及計算機數據等方面的學科,如系統、神經網絡等等。發表的平均年份都在2014年左右,但其中早到了2007年如人工智能。
從中心性來看,關鍵詞的中心性普遍偏低,大于等于0.1的只有5個,表明這一領域具有高度突破創新的關鍵樞紐性的熱點方向還未出現。其中,預測的中心性最高,并且平均發表時間也大大早于其他關鍵詞,是這一領域較早成為較為關鍵樞紐的一個熱點研究。另外,較為熱點的研究關鍵詞還有系統、大數據、人工智能和設計等。
這些大多來自與大數據和人工智能兩門學科中的重要研究方向。大數據涉及各種大量的工作,包括數據的采集、存儲、傳輸、分析、展示等等,這就使得大數據的系統[12]和設計成為十分重要的研究;人工智能方面,神經網絡是目前其最熱門的研究。而預測則代表了人們一直以來期望通過大量的歷史數據來預測未來事件發生的愿望;在人工智能技術對大數據各個部分優化升級的同時,利用大數據訓練出更優秀的人工智能有望在分析這一部分做出更大突破,從而實現“預測”。
在CiteSpace中,研究前沿指正在興起的理論研究和新主題的涌現,其是由引用共被引文獻的施引文獻集合組成的;共被引網絡中的聚類的命名是通過施引文獻中提取的術語確定的,這個命名就可以認為是研究前沿的領域。我們借助樣本文獻的共被引網絡來進一步地分析大數據背景下的人工智能研究前沿以及其演進趨勢。節點類型選擇Reference,樣式設置為年輪,其大小反映文獻的被引次數,年輪圈代表文獻的在不同年份的被引。排除掉較小聚類后得出的主要聚類(如圖2所示),以關鍵詞作為各聚類的標簽。所得到的聚類的模塊化指標達到了0.9,表示共被引網絡得到的聚類很好,結構十分顯著;平均輪廓值高于0.5,可以認為聚類結果是合理的。
深度學習作為目前人工智能發展高潮的代表[13],在大數據背景下仍然是最為前沿的研究;在經歷了幾十年的研究和實踐后,研究人員發現深度學習可以挖掘大數據的潛在價值[14];一種在大數據和人工智能中都經常使用的核最小均方算法也是研究的前沿之一。在大數據與人工智能交叉的研究中,研究前沿更多地分布在了應用領域:用于語言詞匯理解的[15],用于宇宙數據研究如發現脈沖星的[16],以及傳感網絡和智能電網,這可以認為這兩者代表了物聯網這一廣泛運用到大數據和人工智能研究的應用領域。
另外,整理出具有較高中心性的重要文獻(如表3所示)。該領域內高中心性的關鍵文獻還是較少,缺少具有樞紐性的研究發現。綜述類文章一般會被較多地引用在與該學科有關的很多研究領域中,因此排名最前的兩篇均為綜述:一篇大篇幅地介紹了大數據的數據挖掘相關工作[17],另一篇則提供了更為全面的關于大數據領域的概述和全景[18]。此外,還有臺灣大學林智仁[19]就其開發的LIBSVM工具包的文檔,該工具包是一個實現SVM的庫,而SVM算法在大數據和人工智能中都有重要作用。智能電網則是對大數據和人工智能來說都十分重要的應用領域,由大數據支撐的智能電網,是能源與電力行業的發展趨勢,借助大數據和人工智能的技術推動智能電網發展具有重要意義。
結語
本文以大數據背景下人工智能研究的文獻為樣本數據,借助CiteSpace工具,對其研究的現狀和發展熱點、前沿進行了分析。研究發現:
首先,從文獻的國家分布來看,美國在這一領域具有絕對的領導力,中國雖然居于次席但差距很大。機構的分布出現了分別以中國和歐美為核心的兩種分布特點的合作子網絡,其中中國的網絡以中科院和清北和核心,這幾個機構具有較高的中心性;歐美的網絡沒有大的節點,但數量眾多且較為平均,各機構之間的合作十分密切。
其次,大數據背景下的人工智能研究缺乏一個關鍵性的,具有突破意義的研究熱點以及前沿。目前其多來自于兩學科本身的熱點研究,包括算法、神經網絡、模型、設計等等。深度學習不僅是目前人工智能學科的代表,在大數據背景下也是最為前沿的方向,其他的前沿主要有大數據和人工智能交叉領域下的應用,諸如語義語法、宇宙相關研究、物聯網等等。
在大數據背景下,人工智能研究目前還是主要依附于這兩個學科本身,這一領域還沒有形成自己的規模和體系,仍停留在兩學科交叉的階段,而我們更希望看到能在這一領域產生具有自身特性的關鍵性、創新性的發展,甚至是演變為一門邊緣學科。如果能在這一交叉領域中取得發展和突破,無論是對于人工智能還是大數據本身的研究都會有很大的促進作用,并能夠進一步地助力科技、社會的發展。本文選取樣本文獻的檢索策略可能無法準確地包含研究目標領域的所有文獻,這可能也是眾多使用該研究方法的文獻所遇到的共同問題,期待在今后能有更為科學的對策。
參考文獻:
[1]? 彭宇,龐景月,劉大同,彭喜元.大數據:內涵、技術體系與展望[J].電子測量與儀器學報,2015,(4):469-482.
[2]? Mayer-Sch?觟nberger V,Cukier K.Big data:A revolution that will transform how we live,work,and think[M].Houghton Mifflin Harcourt,2013.
[3]? 余義勇,段云龍.大數據時代下企業管理模式創新研究[J].技術與創新管理,2016,(3):302-307.
[4]? 錢玥妤,陳進.制造業企業與互聯網融合創新發展研究——以博世和谷歌公司為例[J].技術與創新管理,2018,(4):438-444.
[5]? 程顯毅,胡海濤,曲平,程實.大數據時代的人工智能范式[J].江蘇大學學報:自然科學版,2017,(4):455-460.
[6]? 陳悅,劉則淵,陳勁,侯劍華.科學知識圖譜的發展歷程[J].科學學研究,2008,(3):449-460.
[7]? 陳悅,陳超美,劉則淵,胡志剛,王賢文.CiteSpace知識圖譜的方法論功能[J].科學學研究,2015,(2):242-253.
[8]? 芮幼琴,康萍.國內科研經費管理研究知識圖譜分析[J].技術與創新管理,2014,(5):433-437.
[9]? Chen C,Hu Z,Liu S,et al..Emerging trends in regenerative medicine:a scientometric analysis in CiteSpace[J].Expert opinion on biological therapy,2012,(5):593-608.
[10]? 李杰,陳超美.citespace科技文本挖掘及可視化[M].北京:首都經濟貿易大學出版社,2016.
[11]? 屈家安,劉菲.國際創新創業研究熱點與趨勢可視化分析——基于2007—2016年四大國際頂尖創新創業期刊的CiteSpace圖譜量化研究[J].科技進步與對策,2018,(12):154-160.
[12]? 邵慧麗,張帆,郝哲,梁玉琪,侯菲菲.基于知識圖譜國際視野下大數據研究可視化分析[J].圖書館雜志,2016,(5):13-19.
[13]? 萬赟.從圖靈測試到深度學習:人工智能60年[J].科技導報,2016,(7):26-33.
[14]? 馬世龍,烏尼日其其格,李小平.大數據與深度學習綜述[J].智能系統學報,2016,(6):728-742.
[15]? Poria S.,Cambria E.,Gelbukh A.,et al..Sentiment data flow analysis by means of dynamic linguistic patterns[J].IEEE Computational Intelligence Magazine,2015,(4):26-36.
[16]? Zhu W.W.,Berndsen A.,Madsen E.C.,et al..Searching for pulsars using image pattern recognition[J].The Astrophysical Journal,2014,(2):117.
[17]? Wu X.,Zhu X.,Wu G.Q.,et al..Data mining with big data[J].IEEE transactions on knowledge and data engineering,2013,(1):97-107.
[18]? Chen M.,Mao S.,Liu Y.Big data:A survey[J].Mobile networks and applications,2014,(2):171-209.
[19]? Chang C.C.,Lin C.J.LIBSVM:A library for support vector machines[J].ACM transactions on intelligent systems and technology(TIST),2011,(3):27.
Retrospect and Visual Analysis of Global Artificial Intelligence Research under the Background of Big Data
LAI Hong-bo,ZHAO Yi-wei
(School of Management,University of Shanghai for Science and Technology,Shanghai 200093,China)
Abstract:Taking the literature in the Web of Science database related to artificial intelligence in the context of big data as the data sample,and using the CiteSpace software to analyzes the literatures research distribution,research hotspots,and frontier research.The study found that the United States has absolute leadership in this field,China lacks critical literature,and has formed two cooperative sub-networks whose centers are Chinese and American.There have not yet produced any critical researches.Deep learning is the research frontier in this field.At present,this field is only an intersection of big data and artificial intelligence.There is no trend to make it a new edge discipline.The results of the analysis will help to understand the development and status quo of the field and provide reference for further in-depth research.
Key words:big data;artificial intelligence;co-citation analysis