莊詩(shī)夢(mèng) 王東波
摘要:深度學(xué)習(xí)源于人工神經(jīng)網(wǎng)絡(luò)的研究,是機(jī)器學(xué)習(xí)研究中的一個(gè)新領(lǐng)域。以Web of Science數(shù)據(jù)庫(kù)中2000-2017年與深度學(xué)習(xí)相關(guān)的文獻(xiàn)作為研究對(duì)象,運(yùn)用CiteSpace軟件對(duì)國(guó)家及機(jī)構(gòu)、關(guān)鍵詞、突變?cè)~、共被引等進(jìn)行可視化知識(shí)圖譜分析,對(duì)深度學(xué)習(xí)發(fā)展產(chǎn)生重要影響的作者及文獻(xiàn)進(jìn)行分析,并對(duì)深度學(xué)習(xí)研究領(lǐng)域進(jìn)行熱點(diǎn)分析,預(yù)測(cè)了深度學(xué)習(xí)研究領(lǐng)域的發(fā)展趨勢(shì),為深度學(xué)習(xí)的后續(xù)研究提供參考。
關(guān)鍵詞:深度學(xué)習(xí);CiteSpace;可視化分析
中圖分類(lèi)號(hào):G353.1文獻(xiàn)標(biāo)識(shí)碼:A
DOI:10.13897/j.cnki.hbkjty.2018.0015
1引言
深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的一個(gè)全新的領(lǐng)域,能解決許多傳統(tǒng)的機(jī)器學(xué)習(xí)無(wú)法解決的問(wèn)題。深度學(xué)習(xí)的提出,不僅在學(xué)術(shù)界引起了極大的關(guān)注,也受到了不同國(guó)家或地區(qū)越來(lái)越多學(xué)者的關(guān)注與重視。機(jī)器學(xué)習(xí)領(lǐng)域最大的挑戰(zhàn)是如何讓機(jī)器更好地理解人的意圖、感知,而這正是深度學(xué)習(xí)研究的目標(biāo),亦是深度學(xué)習(xí)研究的意義所在。在深度學(xué)習(xí)應(yīng)用拓展方面,如何充分合理地利用深度學(xué)習(xí)以增強(qiáng)傳統(tǒng)學(xué)習(xí)算法的性能仍是目前各領(lǐng)域的研究重點(diǎn)[1]。
2深度學(xué)習(xí)的相關(guān)概念
機(jī)器學(xué)習(xí)是研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類(lèi)的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu),從而不斷改善自身性能。20世紀(jì)80年代,基于BP算法的淺層學(xué)習(xí)掀起了機(jī)器學(xué)習(xí)的第一次熱潮,此后,基于傳統(tǒng)的淺層機(jī)器學(xué)習(xí)模型相繼被提出。然而,基于傳統(tǒng)機(jī)器學(xué)習(xí)模型的淺層學(xué)習(xí)在訓(xùn)練方法等方面仍無(wú)從下手。深度學(xué)習(xí)的提出掀起了機(jī)器學(xué)習(xí)的第二次熱潮,解決了許多淺層學(xué)習(xí)無(wú)法解決的問(wèn)題。傳統(tǒng)機(jī)器學(xué)習(xí)僅含單層非線(xiàn)性變換的淺層學(xué)習(xí)結(jié)構(gòu)。深度學(xué)習(xí)是通過(guò)一種深層非線(xiàn)性網(wǎng)絡(luò)結(jié)構(gòu),實(shí)現(xiàn)復(fù)雜函數(shù)逼近,從而實(shí)現(xiàn)特征數(shù)據(jù)學(xué)習(xí)。
深度學(xué)習(xí)的概念最早由機(jī)器學(xué)習(xí)領(lǐng)域的泰斗,多倫多大學(xué)G.E.Hinton教授于 2006 年提出[2]。同年,該教授及其學(xué)生又提出關(guān)于深度學(xué)習(xí)的觀點(diǎn):含多隱層的人工神經(jīng)網(wǎng)絡(luò)具有很優(yōu)秀的特征學(xué)習(xí)能力,其對(duì)學(xué)習(xí)所得到的特征數(shù)據(jù)有更深入的展示,最終得到的網(wǎng)絡(luò)數(shù)據(jù)更有利于分類(lèi)或可視化;深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練其本身網(wǎng)絡(luò)參數(shù)上具有一定的難度,但是這些都可以通過(guò)“逐層初始化”來(lái)克服,而逐層初始化則可以通過(guò)無(wú)監(jiān)督學(xué)習(xí)來(lái)實(shí)現(xiàn)[3]。
深度學(xué)習(xí)源于神經(jīng)網(wǎng)絡(luò)的研究,是機(jī)器學(xué)習(xí)的一個(gè)全新領(lǐng)域,即通過(guò)海量數(shù)據(jù)用以訓(xùn)練從而構(gòu)建相關(guān)模型來(lái)學(xué)習(xí)特征數(shù)據(jù),深度學(xué)習(xí)能夠發(fā)現(xiàn)大數(shù)據(jù)中的復(fù)雜結(jié)構(gòu)。深度學(xué)習(xí)較常用的模型或算法有自動(dòng)編碼器(Autoencoder)、限制波爾茲曼機(jī)(Restricted Boltzmann Machine,簡(jiǎn)稱(chēng)RBM)、深信度網(wǎng)絡(luò)(Deep Belief Networks,簡(jiǎn)稱(chēng)DBNs)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,簡(jiǎn)稱(chēng)CNN)等。
目前,深度學(xué)習(xí)已逐步應(yīng)用于人臉識(shí)別、手寫(xiě)漢字識(shí)別、語(yǔ)音識(shí)別、圖像分類(lèi)等多個(gè)領(lǐng)域。
3研究工具和數(shù)據(jù)來(lái)源
3.1研究工具
本文利用美國(guó)德雷塞爾大學(xué)陳超美博士開(kāi)發(fā)的軟件CiteSpace來(lái)進(jìn)行知識(shí)圖譜繪制,并基于圖譜進(jìn)行可視化分析。這是一款主要用于計(jì)量和分析科學(xué)文獻(xiàn)數(shù)據(jù)的信息可視化軟件,可以用來(lái)繪制科學(xué)和技術(shù)領(lǐng)域發(fā)展的知識(shí)圖譜,直觀地展現(xiàn)科學(xué)知識(shí)領(lǐng)域的信息全景,識(shí)別某一科學(xué)領(lǐng)域中的關(guān)鍵文獻(xiàn)、熱點(diǎn)研究和前沿方向[4]。本文運(yùn)用該軟件對(duì)Web of Science核心合集數(shù)據(jù)庫(kù)中深度學(xué)習(xí)相關(guān)文獻(xiàn)進(jìn)行了國(guó)家(地區(qū))及機(jī)構(gòu)、關(guān)鍵詞、被引共現(xiàn)、突變?cè)~等分析,得出了目前國(guó)際視野下深度學(xué)習(xí)的研究熱點(diǎn)及發(fā)展趨勢(shì)等相關(guān)結(jié)論。
3.2數(shù)據(jù)來(lái)源
本文采用的數(shù)據(jù)來(lái)源于ISI的Web of Science核心合集數(shù)據(jù)庫(kù)(包括SCIEXPANDED,SSCI,CPCIS,CPCISSH,CCREXPANDED,IC),以“deep learning”為主題進(jìn)行檢索,時(shí)間跨度為2000-2017年,題錄信息采集日期為2017年3月30日,共檢索出12 678條記錄,檢索出包含美國(guó)、中國(guó)、英國(guó)、澳大利亞等100多個(gè)國(guó)家或地區(qū)的學(xué)者的相關(guān)文獻(xiàn),大多以英文為主。從檢索出來(lái)的文獻(xiàn)看,與深度學(xué)習(xí)相關(guān)的研究方向主要為計(jì)算機(jī)科學(xué)、工程類(lèi)、教育教學(xué)研究以及神經(jīng)科學(xué)方向。本文將根據(jù)檢索出的數(shù)據(jù)作為本研究的樣本進(jìn)行研究及分析,從而得出結(jié)論。
4基本數(shù)據(jù)統(tǒng)計(jì)分析
本文選擇以Web of Science核心合集數(shù)據(jù)庫(kù)中2000-2017年深度學(xué)習(xí)研究領(lǐng)域相關(guān)的英文文獻(xiàn)作為研究對(duì)象。其中2017年文獻(xiàn)還在繼續(xù)入庫(kù)中,因此基本數(shù)據(jù)統(tǒng)計(jì)分析部分統(tǒng)計(jì)的文獻(xiàn)數(shù)量截至2016年。2000-2016年英文文獻(xiàn)的發(fā)表情況繪制曲線(xiàn)如下圖1所示。
觀察圖1可知,深度學(xué)習(xí)的熱度越來(lái)越高,學(xué)者們對(duì)于深度學(xué)習(xí)的研究越來(lái)越重視。隨著機(jī)器學(xué)習(xí)及深度學(xué)習(xí)表現(xiàn)出來(lái)的學(xué)術(shù)價(jià)值及其影響力的增大,深度學(xué)習(xí)相關(guān)領(lǐng)域論文發(fā)表數(shù)量總體呈上升趨勢(shì)。
2000-2005年,深度學(xué)習(xí)相關(guān)主題英文文獻(xiàn)發(fā)文量較平均,每年發(fā)文量在100-200篇之間,且每年發(fā)文數(shù)量幾乎沒(méi)有增長(zhǎng);2006-2012年,文獻(xiàn)數(shù)量呈緩慢增長(zhǎng)趨勢(shì);從2013年開(kāi)始,深度學(xué)習(xí)相關(guān)英文文獻(xiàn)發(fā)文數(shù)量急速增長(zhǎng),從2013年的1 000篇增至2016年的3 015篇。從Web of Science核心合集數(shù)據(jù)庫(kù)中收錄文獻(xiàn)數(shù)量看,2013-2016年發(fā)文數(shù)量占2000-2016年發(fā)文總數(shù)的63.3%,可見(jiàn),該時(shí)段為深度學(xué)習(xí)領(lǐng)域研究的熱潮階段,隨著年份增加,各國(guó)學(xué)者對(duì)深度學(xué)習(xí)的研究愈發(fā)重視,深度學(xué)習(xí)相關(guān)研究成果也越來(lái)越多。
5可視化結(jié)果及分析
5.1國(guó)家(地區(qū))與機(jī)構(gòu)分布
運(yùn)用CiteSpace軟件,繪制國(guó)家(地區(qū))與機(jī)構(gòu)可視化圖譜進(jìn)行分析,設(shè)置Time Slicing為2000年至2017年,設(shè)置2年為一個(gè)時(shí)間段,節(jié)點(diǎn)類(lèi)型勾選機(jī)構(gòu)及國(guó)家,為使節(jié)點(diǎn)呈現(xiàn)為100左右,經(jīng)多次試驗(yàn)將閾值(Top N)設(shè)為30。生成的可視化圖譜如圖2所示。由圖可知,共有99個(gè)節(jié)點(diǎn),364條連線(xiàn)。一個(gè)節(jié)點(diǎn)代表一個(gè)國(guó)家(地區(qū))或機(jī)構(gòu),而節(jié)點(diǎn)的大小則表示了該國(guó)家(地區(qū))或機(jī)構(gòu)的發(fā)文量多少,節(jié)點(diǎn)越大,發(fā)文越多,反之越少。連線(xiàn)則表示了兩個(gè)區(qū)域之間的合作關(guān)系。由圖2可知,各區(qū)域分布比較集中,之間的聯(lián)系也比較緊密。由節(jié)點(diǎn)大小可知,美國(guó)在深度學(xué)習(xí)研究領(lǐng)域發(fā)文最多為3 931篇,中國(guó)位居第二,共發(fā)表深度學(xué)習(xí)英文文獻(xiàn)2 325篇,其次則為英國(guó)、澳大利亞、德國(guó)、加拿大等,這些國(guó)家均在深度學(xué)習(xí)研究領(lǐng)域較為活躍。
由軟件統(tǒng)計(jì)的中心性來(lái)看(見(jiàn)表1),美國(guó)的中心性最大,達(dá)到了0.74,遠(yuǎn)遠(yuǎn)大于其他國(guó)家(地區(qū)),可見(jiàn)美國(guó)在深度學(xué)習(xí)研究領(lǐng)域的中介作用最明顯,且影響力較大,起著深度學(xué)習(xí)研究的關(guān)鍵性樞紐作用。其次是英國(guó)(0.43),雖然英國(guó)發(fā)文量遠(yuǎn)遠(yuǎn)少于中國(guó)、美國(guó),但其中心性較高,可見(jiàn)英國(guó)在深度學(xué)習(xí)領(lǐng)域影響力較大,與其他國(guó)家的交流較多,中介作用較強(qiáng)。中國(guó)發(fā)文量居第二,而中心性為0.21,位于英國(guó)之后,可見(jiàn)雖然發(fā)文量較大,對(duì)深度學(xué)習(xí)的研究較多,但是影響力卻不夠,深度學(xué)習(xí)應(yīng)用拓展方面在未來(lái)幾年內(nèi)還會(huì)繼續(xù)深化研究,啟示我國(guó)在該領(lǐng)域應(yīng)該加強(qiáng)與各國(guó)家及地區(qū)間的交流互動(dòng),借鑒國(guó)外先進(jìn)研究成果并加以創(chuàng)新,將更多復(fù)合型人才引進(jìn)到深度學(xué)習(xí)研究中來(lái),豐富深度學(xué)習(xí)的應(yīng)用拓展,從而提升學(xué)術(shù)影響力和國(guó)際影響力。
從發(fā)文機(jī)構(gòu)來(lái)看,發(fā)文量為100及以上的機(jī)構(gòu)共有7個(gè),如下表2所示,機(jī)構(gòu)分析可視化結(jié)果如圖3所示。知識(shí)圖譜顯示共有141個(gè)節(jié)點(diǎn),181條連線(xiàn)。節(jié)點(diǎn)之間的連線(xiàn)表示各機(jī)構(gòu)之間的聯(lián)系,可見(jiàn),各機(jī)構(gòu)之間的交流與聯(lián)系較多,各機(jī)構(gòu)對(duì)于深度學(xué)習(xí)的研究有相關(guān)的交流與借鑒。由表2可知,中國(guó)科學(xué)院以278的發(fā)文量位居第一,緊接著是中外六所大學(xué)。總體來(lái)看,國(guó)際上對(duì)于深度學(xué)習(xí)領(lǐng)域研究的機(jī)構(gòu)大多為高校,可見(jiàn)高校近年來(lái)對(duì)于深度學(xué)習(xí)的研究相當(dāng)重視。在排名前七的機(jī)構(gòu)當(dāng)中,中國(guó)占3位,可見(jiàn)我國(guó)各大機(jī)構(gòu)對(duì)于深度學(xué)習(xí)領(lǐng)域的研究相比其他國(guó)家的一些機(jī)構(gòu)較為重視并且有適當(dāng)?shù)某晒a(chǎn)出。
5.2研究熱點(diǎn)分析
研究熱點(diǎn)是某一時(shí)期內(nèi),有內(nèi)在聯(lián)系的、數(shù)量相對(duì)較多的一組文獻(xiàn)共同探討的科學(xué)問(wèn)題或?qū)n}。主題詞是對(duì)文章主題的高度概括和精煉,對(duì)文章的主題詞進(jìn)行分析,頻次較高的主題詞在一定程度上可以看作是該領(lǐng)域的研究熱點(diǎn)[5]。關(guān)鍵詞是一篇文獻(xiàn)的核心與精髓,它是對(duì)文章主題的高度概括與凝練,也是文獻(xiàn)計(jì)量研究的重要指標(biāo)[6]。運(yùn)用CiteSpace軟件,對(duì)關(guān)鍵詞進(jìn)行共現(xiàn)知識(shí)圖譜繪制并分析,設(shè)置Time Slicing為2000年至2017年,設(shè)置2年為一個(gè)時(shí)間段,節(jié)點(diǎn)類(lèi)型勾選關(guān)鍵詞,并選擇術(shù)語(yǔ)類(lèi)型為名詞短語(yǔ),將閾值(Top N)設(shè)為30,繪制關(guān)鍵詞知識(shí)圖譜進(jìn)行分析。
生成的熱點(diǎn)關(guān)鍵詞可視化知識(shí)圖譜如圖4所示,共有139個(gè)網(wǎng)絡(luò)節(jié)點(diǎn),534條連線(xiàn)。關(guān)鍵詞節(jié)點(diǎn)越大,則說(shuō)明該關(guān)鍵詞被引用頻次越高。圖4中可見(jiàn),Deep Learning被引用頻次最高,因本次研究的就是深度學(xué)習(xí)相關(guān)領(lǐng)域。表3按中心性高低列出了中心性前十二的關(guān)鍵詞,除去個(gè)別情況,熱點(diǎn)關(guān)鍵詞基本遵循頻次越高中心性越高的規(guī)律。可見(jiàn),出現(xiàn)頻率越高的詞匯,其中介作用也比較明顯,這些詞在深度學(xué)習(xí)研究領(lǐng)域的作用也較大,對(duì)深度學(xué)習(xí)研究起著舉足輕重的作用。
除此之外,綜合圖表可知,建立模型和執(zhí)行作為深度學(xué)習(xí)研究的關(guān)鍵步驟,Model、Performance和Deep Learning頻次及中心性最高是顯然的。除此之外,對(duì)知識(shí)圖譜及熱詞表分析可知,在深度學(xué)習(xí)相關(guān)領(lǐng)域較熱門(mén)的詞還有Neural Network(神經(jīng)網(wǎng)絡(luò))、Convolutional Neural Network(卷積神經(jīng)網(wǎng)絡(luò))、Machine Learning(機(jī)器學(xué)習(xí)),因深度學(xué)習(xí)的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究,是機(jī)器學(xué)習(xí)研究中的一個(gè)新的領(lǐng)域,而卷積神經(jīng)網(wǎng)絡(luò)為2014年深度學(xué)習(xí)相關(guān)的新興研究領(lǐng)域。此外,深度學(xué)習(xí)的構(gòu)建離不開(kāi)System(系統(tǒng))、Algorithm(算法)等。根據(jù)圖和表綜合判斷,深度學(xué)習(xí)在Recognition(識(shí)別)、Education(教育)、Classification(分類(lèi))等領(lǐng)域應(yīng)用較為廣泛。
5.3文獻(xiàn)共被引分析
一般來(lái)說(shuō),高被引文獻(xiàn)在一定程度上反映了文獻(xiàn)的學(xué)術(shù)影響力和經(jīng)典程度,并且,其中的知識(shí)常被作為相關(guān)研究學(xué)者進(jìn)一步研究的知識(shí)基礎(chǔ)來(lái)源[7]。因此,運(yùn)用CiteSpace軟件,對(duì)被引文獻(xiàn)進(jìn)行共現(xiàn)知識(shí)圖譜繪制并分析高被引文獻(xiàn)十分有必要。設(shè)置Time Slicing為2000年至2017年,設(shè)置2年為一個(gè)時(shí)間段,主題詞來(lái)源選擇標(biāo)題、文摘和關(guān)鍵詞,節(jié)點(diǎn)類(lèi)型勾選被引文獻(xiàn),將閾值(Top N)設(shè)為20,繪制文獻(xiàn)共被引圖譜進(jìn)行分析,結(jié)果如圖5所示。
一篇文章的被引頻次高低可以看出該文獻(xiàn)在領(lǐng)域中的影響力和地位及他人的認(rèn)可程度,并為之后的研究提供參考。在Web of Science核心合集數(shù)據(jù)庫(kù)中深度學(xué)習(xí)相關(guān)文獻(xiàn)被引頻次前五位的文章中,Hinton G E為主要作者的文章占三篇,可見(jiàn)該學(xué)者在深度學(xué)習(xí)領(lǐng)域做出了較大的貢獻(xiàn),具有較高地位。他和Yann LeCun、Bengio Yoshua被稱(chēng)為深度學(xué)習(xí)三巨頭。
由圖5及表4可知,Bengio Yoshua在2009年發(fā)表的文章Learning Deep Architectures for AI[8]是深度學(xué)習(xí)研究領(lǐng)域2000-2017年被引頻次最高的文獻(xiàn),達(dá)到609次。該文章主要介紹了人工智能領(lǐng)域的深層構(gòu)架,討論了關(guān)于深層架構(gòu)學(xué)習(xí)算法的動(dòng)機(jī)和原理,特別是那些利用單層模型(如限制玻爾茲曼機(jī)器)構(gòu)建塊無(wú)監(jiān)督學(xué)習(xí)的方法,用于構(gòu)建深層模型。被引頻次位于第二的是Hinton G E等人于2006年發(fā)表的文章A Fast Learning Algorithm for Deep Belief Nets[2]。該文章提出了深度信念網(wǎng)(Deep Belief Networks,DBNs)的概念,開(kāi)啟了深度學(xué)習(xí)的熱潮。被引頻次位列第三的是Hinton G E博士與Li Deng、Dong Yu、George E. Dahl共同發(fā)表的文章——Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups[9]。該文章發(fā)表于2012年,總結(jié)了四個(gè)研究小組關(guān)于語(yǔ)音識(shí)別中的聲學(xué)建模深層神經(jīng)網(wǎng)絡(luò)的觀點(diǎn)。該文章闡述了具有許多隱藏層并且使用新方法訓(xùn)練的深層神經(jīng)網(wǎng)絡(luò)(DNN)已被證明在多種語(yǔ)音識(shí)別基準(zhǔn)上表現(xiàn)優(yōu)于高斯混合模型(GMM),有時(shí)甚至大幅度地增加。這篇文章概述了這一進(jìn)展情況,并認(rèn)為更好地并行化深層神經(jīng)網(wǎng)絡(luò)模型的微調(diào)仍然是一個(gè)主要問(wèn)題。
5.4高被引作者分析
通過(guò)對(duì)某領(lǐng)域高被引作者的分析,可知對(duì)該領(lǐng)域貢獻(xiàn)較大、起關(guān)鍵性作用的作者,有助于對(duì)該領(lǐng)域發(fā)展過(guò)程的了解。因此,通過(guò)CiteSpace對(duì)某領(lǐng)域被引作者及其貢獻(xiàn)的分析至關(guān)重要。運(yùn)用CiteSpace軟件,設(shè)置Time Slicing為2000年至2017年,設(shè)置3年為一個(gè)時(shí)間段,主題詞來(lái)源選擇標(biāo)題、文摘和關(guān)鍵詞,節(jié)點(diǎn)類(lèi)型勾選被引作者,為使圖譜節(jié)點(diǎn)顯示較為聚集,將閾值(Top N)設(shè)為10,繪制共被引作者知識(shí)圖譜如圖6所示,共有44個(gè)網(wǎng)絡(luò)節(jié)點(diǎn),105條連線(xiàn)。按照CiteSpace分析結(jié)果得被引頻率較高及中心性較高的被引作者分別如表5、表6所示。
圖譜節(jié)點(diǎn)大小由共現(xiàn)頻次決定,節(jié)點(diǎn)位置由中心度或密度控制,中心度或密度大的節(jié)點(diǎn)是核心節(jié)點(diǎn),代表著研究對(duì)象受關(guān)注的程度、重要性,是聯(lián)系溝通其他節(jié)點(diǎn)的樞紐[10]。由圖6可知,(BIGGS J,2003),(LECUN Y,2012),(KRIZHEVSKY A,2012),(HINTON G E,2009)等是較為顯著的中心節(jié)點(diǎn),可見(jiàn)這幾位作者在深度學(xué)習(xí)研究領(lǐng)域的樞紐作用較大,由此可推測(cè)這幾位學(xué)者寫(xiě)的文章較為經(jīng)典,且對(duì)深度學(xué)習(xí)的研究起了舉足輕重的作用。此外,節(jié)點(diǎn)的顏色與年份有關(guān),由圖可知,除去匿名作者以外,高被引作者知識(shí)圖譜分布根據(jù)節(jié)點(diǎn)顏色主要分為三塊。2000-2002年相關(guān)文獻(xiàn)作者被引頻次較低,此時(shí),深度學(xué)習(xí)并未興起;2003年開(kāi)始,以BIGGS J為代表的學(xué)者對(duì)深度學(xué)習(xí)有了初步研究并有相關(guān)聯(lián)系;2009年,HINTON GE、LECUN Y、KRIZHEVSKY A等學(xué)者的深度學(xué)習(xí)相關(guān)文獻(xiàn)被引頻次及中心性較高,代表著這些作家的文獻(xiàn)所受關(guān)注程度較高且對(duì)深度學(xué)習(xí)的發(fā)展起著樞紐作用。
由表5、表6對(duì)比可知,頻次與中心性并非呈正比關(guān)系,甚至可以說(shuō),兩者并沒(méi)有關(guān)系。頻次高的被引作者,中心性不一定高,而中心性較高的被引作者,被引頻次也未必很高。有些作者的文雖然被引用較多,但中介作用、影響力并不高。有些作者文章獻(xiàn)雖然被引頻次不算高,但是其中起的聯(lián)系溝通作用較大。
簡(jiǎn)要介紹幾位深度學(xué)習(xí)領(lǐng)域的代表學(xué)者及其貢獻(xiàn)。Hinton G E和Yann LeCun、Bengio Yoshua被稱(chēng)為深度學(xué)習(xí)三巨頭。結(jié)合圖6和表5,Hinton G E處于顯著位置,且被引用頻次位列最高。該作者于2006年最早提出了深度學(xué)習(xí)的概念,并在同年提出了深度信念網(wǎng)(Deep Belief Networks,DBNs)的概念,開(kāi)啟了深度學(xué)習(xí)的熱潮。LECUN Y(Yann LeCun)是一名計(jì)算機(jī)科學(xué)家,主要研究神經(jīng)網(wǎng)絡(luò),在機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)、計(jì)算神經(jīng)科學(xué)等方面有巨大成就,以卷積神經(jīng)網(wǎng)絡(luò)(CNN)的光學(xué)字符識(shí)別和計(jì)算機(jī)視覺(jué)工作而聞名,是卷積網(wǎng)絡(luò)的創(chuàng)始人[11]。BENGIO Y(Yoshua Bengio )是Montreal大學(xué)教授,他的研究工作主要聚焦在高級(jí)機(jī)器學(xué)習(xí)方面,致力于用其解決人工智能問(wèn)題。此外,BIGGS J等人對(duì)深度學(xué)習(xí)和淺層學(xué)習(xí)進(jìn)行了對(duì)比,對(duì)概念進(jìn)行了闡述并總結(jié)了深度學(xué)習(xí)和淺層學(xué)習(xí)的特征。這些代表學(xué)者都對(duì)深度學(xué)習(xí)的研究做出了巨大的貢獻(xiàn)。
合作研究已成為當(dāng)今科學(xué)研究的普遍現(xiàn)象。從深度學(xué)習(xí)相關(guān)文獻(xiàn)發(fā)文作者來(lái)看,發(fā)現(xiàn)作者總體合作程度較高,因合作發(fā)文質(zhì)量較高,研究嚴(yán)謹(jǐn),能互相開(kāi)拓思路等優(yōu)點(diǎn),大多數(shù)作者選擇了合作發(fā)文。在被引頻次前五的文獻(xiàn)中,僅有一篇由一人獨(dú)自完成,其余都是在相互合作的基礎(chǔ)上完成的,可見(jiàn)合作發(fā)文也是當(dāng)今發(fā)文的一種較為普遍的選擇方式。構(gòu)建以論文合著為基礎(chǔ)的合作關(guān)系網(wǎng),能夠反映實(shí)際情況,具有良好的說(shuō)服力,可行性及結(jié)果的可信度大。[12]
5.5突變?cè)~分析
通過(guò)運(yùn)用CiteSpace軟件對(duì)突變?cè)~的圖譜分析,可以挖掘該領(lǐng)域的研究?jī)r(jià)值,并為該研究領(lǐng)域的發(fā)展趨勢(shì)及前沿探索提供參考。設(shè)置3年為一個(gè)時(shí)間段,節(jié)點(diǎn)類(lèi)型選擇關(guān)鍵詞,術(shù)語(yǔ)類(lèi)型設(shè)置為名詞短語(yǔ)和突變術(shù)語(yǔ),并將閾值(Top N)設(shè)為20,最終以時(shí)區(qū)視圖(Timezone)方式顯示突變?cè)~知識(shí)圖譜如圖7,并將專(zhuān)業(yè)術(shù)語(yǔ)突變?cè)~總結(jié)歸納得下表7。
通過(guò)圖表可以明顯看出,2000—2005年期間,深度學(xué)習(xí)并未興起,還處于一個(gè)萌芽階段,而神經(jīng)網(wǎng)絡(luò)(neural network)、模型(model)、系統(tǒng)(system)等詞的突現(xiàn),為之后深度學(xué)習(xí)概念的出現(xiàn)及其發(fā)展研究奠定了基礎(chǔ),因深度學(xué)習(xí)概念源于神經(jīng)網(wǎng)絡(luò);而到了2006—2011年,深度學(xué)習(xí)逐步興起,步入了一個(gè)全新領(lǐng)域的初始階段,處于該領(lǐng)域的探索階段,并逐漸轉(zhuǎn)向知識(shí)(knowledge)、高等教育(high education)層面的研究,2009年,深度學(xué)習(xí)(deep learning)作為該時(shí)期的突變?cè)~“爆發(fā)”,學(xué)者們開(kāi)始更多著手研究深度學(xué)習(xí)的戰(zhàn)略(strategy)與動(dòng)機(jī)(motivation),并逐步實(shí)現(xiàn)深度學(xué)習(xí)的算法(algorithm)探索,步入了機(jī)器學(xué)習(xí)(machine learning)的全新領(lǐng)域;深度學(xué)習(xí)的高潮階段可概括為2012年—2017年,該階段更傾向于深度學(xué)習(xí)的進(jìn)一步探索與應(yīng)用拓展層面,許多學(xué)者相繼提出了新的算法模型,如卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network)、深層神經(jīng)網(wǎng)絡(luò)(deep neural network)、deep belief network(深層信念網(wǎng)絡(luò))等,并將深度學(xué)習(xí)聚焦應(yīng)用于圖像(image)物體分類(lèi)(classification)、圖像(image)分割(segmentation)處理、識(shí)別等不同層面。可見(jiàn),深度學(xué)習(xí)領(lǐng)域仍處于快速發(fā)展并逐漸步入應(yīng)用拓展階段,可以預(yù)見(jiàn)之后深度學(xué)習(xí)研究領(lǐng)域?qū)?huì)有更加快速、便捷、合適的算法,應(yīng)及時(shí)關(guān)注實(shí)踐中的應(yīng)用效果。
6結(jié)語(yǔ)
淺層學(xué)習(xí)到深度學(xué)習(xí)的過(guò)渡是機(jī)器學(xué)習(xí)的全新浪潮,深度學(xué)習(xí)的提出及興起勢(shì)必對(duì)機(jī)器學(xué)習(xí)發(fā)展產(chǎn)生重大影響。本文以Web of Science核心合集數(shù)據(jù)庫(kù)中2000-2017年與深度學(xué)習(xí)相關(guān)的文獻(xiàn)作為研究對(duì)象,運(yùn)用CiteSpace軟件對(duì)國(guó)家(地區(qū))及機(jī)構(gòu)、關(guān)鍵詞、被引共現(xiàn)、突變?cè)~等進(jìn)行可視化分析,生成可視化知識(shí)圖譜,展現(xiàn)了深度學(xué)習(xí)研究的總體概況,并對(duì)該領(lǐng)域進(jìn)行了相關(guān)熱點(diǎn)與前沿的分析。進(jìn)一步分析結(jié)論如下:
(1)隨著機(jī)器學(xué)習(xí)及深度學(xué)習(xí)表現(xiàn)出來(lái)的學(xué)術(shù)價(jià)值及其影響力的增大,深度學(xué)習(xí)國(guó)際領(lǐng)域發(fā)文量總體呈上升趨勢(shì)。從2006年提出深度學(xué)習(xí)概念開(kāi)始,國(guó)際上在深度學(xué)習(xí)相關(guān)研究領(lǐng)域的發(fā)文數(shù)量開(kāi)始緩慢上升,并在2013年開(kāi)始急速增長(zhǎng),可以說(shuō)達(dá)到了深度學(xué)習(xí)研究的熱潮。
(2)在國(guó)際領(lǐng)域,從2000年開(kāi)始,美國(guó)成為該領(lǐng)域發(fā)文量最高的國(guó)家,中國(guó)緊隨其后,但中國(guó)在該領(lǐng)域的研究中介作用和影響力明顯沒(méi)有美國(guó)、英國(guó)強(qiáng),啟示我國(guó)在該領(lǐng)域應(yīng)加強(qiáng)與國(guó)際的交流與合作,在借鑒國(guó)外先進(jìn)研究成果基礎(chǔ)上加以創(chuàng)新,將更多復(fù)合型人才引進(jìn)到深度學(xué)習(xí)研究中來(lái),提升國(guó)際影響力。
(3)通過(guò)關(guān)鍵詞熱點(diǎn)分析,可知深度學(xué)習(xí)源于人工神經(jīng)網(wǎng)絡(luò)的研究,卷積神經(jīng)網(wǎng)絡(luò)為2014年深度學(xué)習(xí)相關(guān)的新興研究領(lǐng)域。此外,深度學(xué)習(xí)的構(gòu)建離不開(kāi)系統(tǒng)與算法等,深度學(xué)習(xí)在識(shí)別、教育、圖像分割等領(lǐng)域的應(yīng)用較多。
(4)對(duì)Web of Science核心合集數(shù)據(jù)庫(kù)中深度學(xué)習(xí)相關(guān)文獻(xiàn)進(jìn)行高被引作者分析,HINTON G E、LECUN Y、KRIZHEVSKY A等學(xué)者的深度學(xué)習(xí)相關(guān)文獻(xiàn)所受關(guān)注程度較高且對(duì)深度學(xué)習(xí)的發(fā)展起著樞紐作用。
(5)國(guó)際上對(duì)深度學(xué)習(xí)的研究大致可以分為萌芽階段(2000年—2005年)、初始階段(2006年—2011年)和熱潮階段(2012年—2017年)三個(gè)階段。萌芽時(shí)期比較平靜,主要是為之后的深度學(xué)習(xí)概念的提出奠定基礎(chǔ);初始階段主要為前期探索過(guò)程,逐步摸索深度學(xué)習(xí)的戰(zhàn)略、動(dòng)機(jī)及算法的實(shí)現(xiàn),慢慢步入了機(jī)器學(xué)習(xí)的全新領(lǐng)域;熱潮階段傾向于深度學(xué)習(xí)的進(jìn)一步探索與應(yīng)用拓展層面,許多學(xué)者提出了新的算法模型,并關(guān)注實(shí)踐中的應(yīng)用效果為之后的深度學(xué)習(xí)研究提供建設(shè)性參考價(jià)值,在接下來(lái)的時(shí)段仍具有發(fā)展?jié)撃芗熬薮蟮陌l(fā)展空間。
不過(guò),本次研究仍存在一些不確定因素。筆者認(rèn)為最重要的一個(gè)原因是只選擇了一個(gè)數(shù)據(jù)庫(kù)中的數(shù)據(jù),這也是本研究一個(gè)最大的局限性,之后可以增加數(shù)據(jù)庫(kù)來(lái)源,使呈現(xiàn)的結(jié)果更加系統(tǒng),更具說(shuō)服力。其次,本文并未對(duì)發(fā)表在國(guó)內(nèi)的深度學(xué)習(xí)相關(guān)文獻(xiàn)進(jìn)行分析,分析所得的我國(guó)與國(guó)際研究實(shí)況對(duì)比可能缺少說(shuō)服力,之后可以通過(guò)國(guó)內(nèi)文獻(xiàn)的分析,從而對(duì)我國(guó)的深度學(xué)習(xí)研究提出建設(shè)性建議。
深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的一個(gè)新的領(lǐng)域,勢(shì)必會(huì)對(duì)機(jī)器學(xué)習(xí)及人工智能系統(tǒng)產(chǎn)生影響,國(guó)際上對(duì)于深度學(xué)習(xí)的研究雖然仍處于發(fā)展階段,但其越來(lái)越受到不同國(guó)家學(xué)者的關(guān)注與重視,且仍有許多方面等待研究與挖掘。隨著理論的完善及算法的開(kāi)發(fā),深度學(xué)習(xí)正逐步步入應(yīng)用拓展階段,信息化下的深度學(xué)習(xí)也將成為新的發(fā)展趨勢(shì),接下來(lái)的幾年里深度學(xué)習(xí)勢(shì)必達(dá)到一個(gè)新的高峰。
參考文獻(xiàn)
[1]孫志軍,薛磊,許陽(yáng)明,等. 深度學(xué)習(xí)研究綜述[J]. 計(jì)算機(jī)應(yīng)用研究,2012,29(8):2806-2810.
[2]Hinton G E,Osindero S,Teh Y W. A fast learning algorithm for deep belief nets[J]. Neural Computation,2006,18(7):1527.
[3]韓小虎,徐鵬,韓森森,等. 深度學(xué)習(xí)理論綜述[J].計(jì)算機(jī)時(shí)代,2016,(6):107-110.
[4]侯劍華,胡志剛. CiteSpace軟件應(yīng)用研究的回顧與展望[J].現(xiàn)代情報(bào),2013,33(4):99-103.
[5]趙蓉英,徐燦. 信息服務(wù)領(lǐng)域研究熱點(diǎn)與前沿的可視化分析[J]. 情報(bào)科學(xué),2013,(12):9-14.
[6]劉青,阮志紅,張俊峰. 基于CiteSpace的深度學(xué)習(xí)研究熱點(diǎn)與趨勢(shì)分析[J]. 軟件導(dǎo)刊:教育技術(shù),2016,15(9):3-5.
[7]劉貴玉. 基于CitespaceⅢ的國(guó)際圖情領(lǐng)域關(guān)聯(lián)數(shù)據(jù)研究可視化分析[J]. 農(nóng)業(yè)圖書(shū)情報(bào)學(xué)刊,2014,26(6):67-73.
[8]Bengio Y. Learning Deep Architectures for AI[J]. Foundations & Trends in Machine Learning,2009,2(1):1-127.
[9]Hinton G,Deng L,Yu D,et al. Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups[J]. IEEE Signal Processing Magazine,2012,29(6):82-97.
[10]張璇,蘇楠,楊紅崗,等. 2000-2011年國(guó)際電子政務(wù)的知識(shí)圖譜研究——基于Citespace和VOSviewer的計(jì)量分析[J].情報(bào)雜志,2012,(12):51-57.
[11]Haykin S, Kosko B. GradientBased Learning Applied to Document Recognition[D].WileyIEEE Press,
2009.
[12]邱均平,伍超. 基于社會(huì)網(wǎng)絡(luò)分析的國(guó)內(nèi)計(jì)量學(xué)作者合作關(guān)系研究[J]. 圖書(shū)情報(bào)知識(shí),2011,(6):12-17.
作者簡(jiǎn)介:莊詩(shī)夢(mèng)(1995-),女,南京農(nóng)業(yè)大學(xué)信息科技學(xué)院本科在讀,研究方向:信息計(jì)量。
王東波(19-),男,南京農(nóng)業(yè)大學(xué)領(lǐng)域知識(shí)關(guān)聯(lián)研究中心。
(收稿日期:20170916責(zé)任編輯:張靜茹)
Abstract: The indepth learning originated in the study of artificial neural network,which is a new field of machine learning research. This paper takes indepth learning relevant literature from 2000 to 2017 from Web of Science database as research object. By employing the CiteSpace software, a visual knowledge map analysis of states and institutions, keywords, burst terms and cocitation is conducted. Analysis of Authors and literature that have important influence on the development of indepth learning and hotspot analysis on indepth learning research field are carried out. In addition, this paper predicts the development trend of indepth learning research and provides reference for further study of indepth learning
Key words: Indepth Learning; CiteSpace; Quantitative Analysis