崔梓凝
(北京工業大學經濟與管理學院 北京市 100144)
近年來,人工智能技術已對人類社會產生極為深遠且廣泛的影響,它為諸多領域提供了大量發展機遇。機器學習技術是人工智能的一大核心研究領域。機器學習概念的提出至今已有較為悠久的歷史,圖靈早在1950年發表的文章中便有所提及。鑒于目前關于機器學習領域的文獻計量研究較少,本文旨在對2016-2020年機器學習領域高被引文獻進行統計分析和知識圖譜分析,以得到機器學習領域研究熱點和該領域高被引文獻的特征,使研究人員得以更加清楚地了解機器學習領域的研究態勢。
WebofScience 數據庫是目前國際上最具權威性和影響力的文獻數據庫之一。本文所選取的是Web of Science 核心合集中檢索時間范圍為2016-2020年標題為“machin*learning”的文獻數據,采用的檢索式為:標題="machin*learning";出版時間="2016 OR 2017 OR 2018 OR 2019 OR 2020";數據采集時間為2021年5月16日,以此檢索式進行檢索,共檢索到28769 篇文獻。最終根據被引頻次從低到高排序,篩選出被引頻次靠前的2000 篇高被引文獻。
本文研究主要采用文獻計量分析法和可視化分析法對機器學習領域相關文獻進行分析研究。文獻計量分析法是利用數據庫中研究性論文的發表規律,以定量研究方法作為基礎,客觀地評價不同期刊、研究機構或國家針對某一領域的研究現狀與發展歷程。文獻計量分析法主要以文獻為數據源,包括搜集、整理和分析三大基本過程。可視化分析法則是運用可視化分析軟件r 對檢索得到的文獻進行深入的分析研究,更為直觀地說明不同研究范疇間的內在聯系。
文獻發表數量是用來衡量某一領域科研成果和發展水平的重要指標。對相關文獻的發文量進行年度統計分析能夠揭示當前該領域的發展狀況并預測其研究前景與發展趨勢。通過對Web of Science數據庫中檢索得到的2000 篇有關機器學習研究的高被引文獻進行時間分布分析,所選文獻在2016 到2018年間呈現增長趨勢并于2018年發文量達到高峰,總計668 篇;2018年作為轉折點,2018到2020年間呈現降低趨勢,并在2020年達到最低點,發文量僅有116 篇。
3.2.1 國家/地區分布
國家/地區在領域內的發文量在一定程度上可以反映出該國/
地區在此領域的整體科研實力和學術影響力。有關機器學習的研究主要集中在美國、中國、英國、德國、加拿大等國,其中美國的發文量最多,共962 篇;中國發文量位列第二,發表文獻為352 篇,隨后為英國、德國、加拿大、澳大利亞、意大利、韓國、瑞士、日本等國,這十個國家構成了機器學習領域的核心國家/地區群。在2000 篇高被引文獻中,其中352 篇為中國學者發表,排名世界第二,由此可見中國在機器學習領域占據較高地位,有極大的影響力。
此外,HistCite 軟件用來進行文獻計量分析的主要指標還有TGCS。TGCS 的全稱是Total global citation score,即某一文獻在WOS 數據庫中的總被引用次數,可以作為衡量文獻重要性的指標。鑒于所選數據為機器學習領域被引頻次前2000 的文獻,GCS 值高意味著該文獻是本研究領域內的重要文獻。
3.2.2 研究機構分布
3.2.2.1 研究機構統計分析
研究機構的計量分析可以揭示該研究方向的機構分布,輔助研究者找到學術跟蹤信息源[12]。科研機構發文量是其研究力量的體現,通常研究機構的學術實力越強,其發文量越多。從表2 來看,在所選的2016-2020年2000 篇高被引文獻中,全球發文量排名前10 位的機構共發表論文395 篇,僅占發文總量的19.75%。由此可見,目前機器學習領域研究機構分布廣泛,尚未形成具有絕對學科優勢的科研機構。
通過統計分析所選文獻的研究機構數據,發現發文量排名前十的研究機構依次為:斯坦福大學、麻省理工學院、哈佛醫學院、劍橋大學、哈佛大學、加利佛尼亞大學伯克利分校、賓夕法尼亞大學、卡內基梅隆大學、中國科學院和倫敦大學學院。在這十個研究機構中,其中包括7 個美國高校、2 個英國高校。
3.2.2.2 研究機構合作圖譜分析
本文選用CiteSpace 構建研究機構合作關系網絡,研究機構在圖譜中表現為圓形節點,圖譜節點的大小代表發文量的多少,通過分析研究機構合作網絡圖,可以得出發文量前3 的機構分別是Stanford Univ、MIT、Harvard Med Sch。節點間連線的粗度表示機構之間的合作程度,節點間連線越密集,代表該研究機構與其他研究機構的合作關系越強。可發現:Stanford Univ、Univ Krudistan、Los Alamos Nalt Lab、Chinese Acad Sci 和Harvard Univ 與其他機構間有較強的合作。
期刊發表相關文獻數量是指2000 篇文獻里每種期刊登載的相關文獻數量。一般來說,文獻發表數越多,則說明此期刊在該領域影響力越大,期刊發表相關文獻數量與期刊影響力是正相關關系。分析文獻發表期刊有助于研究者了解該領域內的核心期刊,并為其檢索資料、發表論文和投稿提供一定參考。
機器學習領域高被引論文發表刊物較為分散,所選的2000 篇文獻分別發表在882 種期刊上,發文量排名前十的期刊如表1所示,近1/5 的文獻發表于這十種刊物。

表1:2016-2020年期刊發表期刊文獻數量統計
由表1 可得:《PLOS ONE》的TGCS 最高,說明在此刊發表的論文在本地數據集中的被引用次數最多。
關鍵詞是對文獻主旨內容和作者意圖的概括。通過對論文關鍵詞詞頻進行統計分析和共現分析,即可以發現該領域當前研究熱點。“machine learning”在中心度和關鍵詞詞頻排序中都位居首位。結合兩種排序方法進行分析,本文發現機器學習的研究主要以算法為主,涉及到深度學習、隨機森林等。
3.4.1 關鍵詞統計分析
文獻關鍵詞是對文章主題的高度概括。通過分析關鍵詞,可以了解到機器學習研究熱點問題。對機器學習研究領域高被引文獻高頻關鍵詞進行統計分析,可發現關鍵詞出現頻次由高到低依次是機器學習、深度學習、人工智能、隨機森林、分類、數據挖掘等。
3.4.2 關鍵詞共現分析
在關鍵詞共現聚類分析方面, VOSviewer 可清晰展示領域內各聚類簇中的關鍵詞。本文利用VOSviewer 進行關鍵詞共現分析,根據出現關鍵詞出現頻次繪制機器學習領域的關鍵詞共現圖譜,關鍵詞出現頻次越高,關鍵詞節點越大。
關鍵詞共現圖譜中將128 個關鍵詞分為12 個聚類簇,以包含較多關鍵詞的聚類1 和聚類2 為例進行具體說明:
(1)聚類1 中有21 個關鍵詞,如圖中紅色關鍵詞所示,主要包括急性腎損傷、人工智能、大數據、急救護理、交叉驗證、診斷、電子健康記錄、精密醫療等,可看出此聚類中主要涉及到機器學習在醫療診斷等方面的應用,以及所需的關鍵技術。
(2)聚類2 中有20 個關鍵詞,如圖中綠色關鍵詞所示,主要包括自適應神經模糊推理系統、人工神經網絡、回歸樹、決策樹、基因算法、隨機森林、粒子群算法等,該聚類中包括機器學習在腦電分析中的應用及相關算法。
(1)有關機器學習的研究主要集中在美國、中國、英國、德國、加拿大、澳大利亞、意大利、韓國、瑞士、日本等國,這十個國家構成了機器學習領域的核心國家/地區群,其中美國的發文量最多,中國位列第二。
(2)機器學習領域研究機構分布廣泛,尚未形成具有絕對學科優勢的科研機構。發文量排名前十的研究機構中,包括7 所美國高校、2 所英國高校,由此看出英美高校是機器學習領域研究的核心研究機構。
(3)機器學習領域高被引論文發表刊物較為分散,僅有不到1/5 的文獻發表在該領域發表文獻數量排名前十刊物。
雖然按照關鍵詞權重排序與按詞頻排序得到的高頻關鍵詞并非完全一致,但可以基本反映出機器學習領域的研究熱點。通過對所選文獻的關鍵詞詞頻進行統計和共現分析,可以發現該領域當前的研究熱點為:機器學習、深度學習、人工智能、隨機森林、分類、數據挖掘、支持向量機、大數據、特征選擇、預測。
中國在機器學習研究上處于較高水平,在該領域占據較高地位,有較強的的影響力,但與美國仍存在一定的差距。在2016-2020年內被引用最多的2000 篇論文中,中國的作者比例穩步上升,其份額在2019年達到了24.14%,而美國的份額正在下降,中國與美國之間的差距明顯縮小。如果這種趨勢持續下去,中國發文量會在不久后超過美國。
(1)有關機器學習的研究主要集中在美國、中國、英國、德國、加拿大、澳大利亞、意大利、韓國、瑞士、日本等國,這十個國家構成了機器學習領域的核心國家/地區群,其中美國的發文量最多,中國位列第二。
(2)機器學習領域研究機構分布廣泛,尚未形成具有絕對學科優勢的科研機構。發文量排名前十的研究機構中,包括7 所美國高校、2 所英國高校,由此看出英美高校是機器學習領域研究的核心研究機構。
(3)機器學習領域高被引論文發表刊物較為分散,僅有不到1/5 的文獻發表在該領域發表文獻數量排名前十刊物。